Запусти своего первого Managed Agent

Claude26 мая 202619 39645910 мин чтения28 мая, 11:24

Коротко

Isabella He из Applied AI team в Anthropic проводит воркшоп по Claude Managed Agents — новой управляемой инфраструктуре для агентов, которая берёт на себя hosting, scaling, compaction, caching и context management. Ключевое архитектурное решение — разделение «мозга» (agent loop на сервере Anthropic) и «рук» (tool execution локально или в собственной инфраструктуре), что даёт >90% сокращение P95 TTFT и сильную изоляцию credentials. Воркшоп строит SRE-агента для incident response на трёх примитивах: agents (персона + tools), environments (sandbox), sessions (связка + стриминг событий). Сессии работают в терминах events, а не request/response — это даёт persistence, resumability и observability из коробки. В конце — обзор расширенных возможностей: subagents, memory + dreaming, outcomes (rubric-based), vaults, webhooks, MCP tunnels.

Главный тезис

Harnesses должны эволюционировать вместе с моделями — поэтому имеет смысл отдать Anthropic'у всю инфраструктурную сложность (compaction, caching, context anxiety, hosting) и сфокусироваться на том, что реально приносит value: задачи, тулзы и domain expertise агента.

Ключевые идеи

  • 4:38harness должен эволюционировать вместе с моделью: код против context anxiety в Sonnet 4.5 стал обсолетным с выходом Opus 4.5
  • 7:34 — раньше agent loop был жёстко связан с tool execution; в CMA эти слои разделены
  • 8:55 — decoupling «мозга» и «рук» дал >90% reduction в P95 TTFT, потому что не нужно поднимать контейнер на каждую сессию
  • 5:45 — три примитива CMA: agent (персона + capabilities), environment (sandbox + networking allowlist), session (связка agent+env)
  • 6:45agent loop крутится на сервере Anthropic; закрыл лаптоп — сессия продолжает жить
  • 28:34 — сессии общаются events, а не request/response — события аппендятся в лог сессии
  • 14:53MCP tunnels позволяют запускать MCP-серверы в приватной сети, а не на публичной
  • 14:08bring your own compute: можно исполнять tools в собственной инфраструктуре, а не только в Anthropic Cloud
  • 16:10context engineering — основное, на что тратят время разработчики поверх CMA
  • 31:31webhooks могут резюмить сессию или триггерить состояние по внешнему событию
  • 34:31Outcomes: вместо «вызови тулзы» агенту задают rubric желаемого результата, и он сам выбирает путь
  • 33:53Dreaming: агент ходит по своим memory-логам и сам решает, что оставить в памяти
  • 35:11Vaults: credentials шифруются на отдельном эндпоинте, агент не имеет прямого доступа — это побочный профит decoupling'а brain/hands
  • 29:14 — если контейнер упал, его поднимают заново без рестарта agent loop — это и есть профит разделения
  • 26:45 — сессии живут в states: idle, running, rescheduling, terminated — состоянием можно управлять извне

Почему это важно

Anthropic переходит от продажи токенов (Messages API) к продаже управляемой агентной инфраструктуры, забирая у разработчиков всё, что не относится к доменной логике — hosting, scaling, durability, compaction, observability. Это прямой ответ на проблему «прототип на агент SDK работает, а в прод не доезжает». Выигрывают разработчики, которым не нужно собирать reliability-стек руками (заявлено 10–15× быстрее в прод), и сама Anthropic, превращающаяся из API-провайдера в платформу для агентов (по аналогии с тем, как AWS отъел инфру у дата-центров). Проигрывают самопальные harness-решения и часть value у обёрток типа LangChain — Anthropic забирает primitives себе. Упомянуты Datadog (как пример swap'а тулзы из локального JSON в production-систему) и Claude Code как референсный агент.

Идеи

  • Context anxiety — реальная поведенческая патология модели: Sonnet 4.5 заканчивал задачи рано даже при свободном контексте; в Opus 4.7 ушло само
  • Anthropic исправляет behavioral quirks модели через временные патчи в harness, а потом откатывает их когда модель эволюционирует
  • Разделение brain/hands даёт безопасность не как side-effect, а как архитектурное свойство: credentials физически вне досягаемости agent loop
  • Networking в environment — это allowlist, не denylist; default = unrestricted, но можно сузить до конкретных URL
  • Файлы передаются агенту через files API, а агент гоняет код в sandbox'е для их обработки — это паттерн из Claude Code
  • Sessions общаются events'ами не ради API-эстетики, а потому что append-only log = тривиальный resume после падения
  • Webhook + state machine сессии = агент может «спать» и просыпаться от внешних триггеров без polling'а
  • Outcomes как rubric-driven execution — это движение от imperative агентов к declarative: говоришь «что», агент решает «как»
  • Dreaming — это самокурация памяти: агент сам решает что забыть, не разработчик
  • Console Agent Builder — UI для определения агента прямо в developer console, без кода
  • Local tools загружаются из JSON и регистрируются через wire protocol — getMetrics из JSON меняется на getMetrics из Datadog без переписки агента
  • Скиллы типа «runbook» — давай агенту тот же набор материалов, что есть у человека-инженера на инциденте
  • SRE — каноничный first-use-case для агентов: ночные звонки, structured environment, clear success metric
  • Hard refresh страницы — встроенный smoke test на server-side persistence; если сессии остались, persistence реально работает
  • Free credits раздавали через QR — типичный playbook для onboarding'а разработчиков на новый продукт
  • «Bring your own compute» вышло на Code with Claude London за день до воркшопа — Anthropic выкатывает features в реальном времени к ивентам
  • Дублирование agent.py vs agent_complete.py для воркшопа — копи-пейст одной примитивы за раз даёт лучший mental model, чем готовый код
  • Удаление сессии чистит её из всех logs — compliance-фича, а не косметика
  • 10–15× ускорение до prod — заявленный, не измеренный публично, цифра маркетинговая
  • Демо в реальном времени сбоило (агент «потерялся»), спикер открыто признала и перезапустила агента — нормализация ненадёжности демо
  • Multi-agent сделан в первую очередь для context isolation, а уже потом для параллелизма
  • Decoupling tool execution — это де-факто превращение агентного фреймворка в distributed system, где brain и hands могут жить в разных доверительных зонах

Инсайты

  • Управляемые агенты — это AWS-момент для AI-агентов: модель-провайдер забирает себе инфра-слой, оставляя разработчикам только domain logic
  • Архитектура «brain server-side / hands client-side» — это не выбор, а инверсия безопасной модели по умолчанию: чем меньше у LLM прямого доступа к credentials, тем безопаснее
  • Когда model intelligence растёт, сложность сдвигается вверх по стеку: примитивы агента становятся сложнее, harness обязан расти, иначе модель упирается в потолок harness'а
  • Append-only event log + server-side state machine — общая архитектура надёжных distributed-систем (Kafka, event sourcing); агенты пришли к этому потому же, почему пришли БД
  • Outcomes-based execution — переход от prompt engineering к goal engineering: специфицируешь критерий, а не последовательность
  • Self-curating memory (dreaming) — признание того, что наивное накопление контекста ломает агента; нужен отдельный процесс «забывания»
  • Vendor lock-in в эпоху агентов будет происходить на уровне harness'а, а не модели: миграция модели — это смена endpoint'а, миграция harness'а — переписывание агента
  • Production-readiness агента — это не качество модели, а 90% инфраструктурной обвязки; именно её Anthropic монетизирует
  • Decoupling «мозга» и «рук» делает агента failure-tolerant как stateless web-сервис: контейнер упал — поднимаем новый, loop продолжается
  • Сильное TTFT-улучшение от архитектурного решения, а не от ускорения модели — показатель, что большая часть latency в агентах сидит в обвязке, не в инференсе
  • Воркшоп копирует код из agent_complete.py в agent.py по кусочкам не из лени, а как педагогический приём — отделение примитивов в сознании разработчика
  • SRE-агент удобен как демо потому, что у него есть objective truth: либо нашёл root cause, либо нет — в отличие от агентов творческих задач

Цитаты

«harnesses should evolve alongside your agents» — 4:38 harness должен эволюционировать вместе с твоими агентами

«With Sonnet 4.5, Claude started wrapping up tasks early even when it still had room to spare in its context window» — 5:00 С Sonnet 4.5 Claude начал сворачивать задачи рано, даже когда в контекстном окне ещё оставалось место

«over 90% reduction in TTFT for our P95 metrics on latency» — 8:55 снижение TTFT более чем на 90% по P95-метрикам latency

«the agent loop coupled tightly with tool execution» — 7:34 agent loop был жёстко связан с исполнением тулзов

«sessions speak in events and not responses in and tokens out» — 28:34 сессии говорят в событиях, а не в request/response

«when you close your laptop or you hit hard refresh on your agent that you're building on Claude Manage Agents, everything is maintained» — 7:04 когда ты закрываешь лаптоп или жмёшь hard refresh — всё сохраняется

«context engineering is a huge portion that comes to actually making an agent powerful» — 16:10 context engineering — огромная часть того, что делает агента сильным

«you can actually have a webhook run. And when an event happens from a webhook, the agent receives that webhook in and can then do something like resume a session» — 31:26 можно запустить webhook, и при наступлении события агент получает его и может, например, возобновить сессию

«you can define a rubric of exactly what you want the agent to produce, and it'll figure out along the way which tool calls and what it needs to do» — 34:45 задаёшь рубрику того, что должен произвести агент, а он сам разбирается, какие тулзы вызывать

«Claude can actually come and also look through its own memory logs and determine what to keep» — 34:08 Claude может сам пройтись по своим memory-логам и решить, что оставить

«you as a human developer can just become the oversight and watch over the agents as they take action» — 25:41 ты как разработчик-человек становишься надзором и просто следишь, как агенты действуют

«if a container goes down, we can just spin that container back up again, and we don't have to restart the entire agent loop» — 29:14 если контейнер упал, мы просто поднимаем его заново и не перезапускаем весь agent loop

«We've seen people build 10 to 15 times faster to production with Claude Managed Agents» — 4:25 Мы видим, что люди доходят до прода в 10–15 раз быстрее с Claude Managed Agents

«Give the agent same access to the materials that you would have as a human developer» — 22:05 Дай агенту такой же доступ к материалам, какой есть у тебя как разработчика-человека

Факты

  • Спикер — Isabella He, member of technical staff, Applied AI team, Anthropic
  • Первый Claude и Messages API вышли в 2023
  • Эволюция стека: Messages API → Agent SDK (программный вызов Claude Code) → Claude Managed Agents (полный managed harness)
  • В демо используется модель Claude Opus 4.7
  • Поведение context anxiety наблюдалось у Sonnet 4.5 и исчезло в Opus 4.5
  • Decoupling agent loop и tool execution дал >90% reduction в P95 TTFT (по внутренним метрикам Anthropic)
  • Заявлено ускорение пути в прод: 10–15× быстрее с CMA
  • На Code with Claude London за день до воркшопа выкатили bring your own containers / compute
  • Также анонсированы Cloud MCP tunnels (приватные MCP-серверы) и новые MCP server controls
  • Сессии в CMA имеют состояния: idle, running, rescheduling, terminated
  • Демо-агент использует тулзы: getMetrics, getRecentDeploys, getDiff, bash, sandbox
  • В демо-инциденте root cause — database pool exhaustion, вызванный коммитом «Alice» с рефактором order summary builder
  • Репозиторий воркшопа: ship-your-first-managed-agent, запуск через streamlit run app.py
  • Сразу после воркшопа — отдельная сессия по dreaming

Источники

  • Claude Managed Agents — managed-harness Anthropic
  • Agent SDK — программный harness для Claude Code
  • Messages API — первый API Anthropic (2023)
  • Claude Code — референсный агент Anthropic с доступом к файловой системе
  • Cloud MCP tunnels — приватные MCP-серверы
  • Streamlit — фреймворк для UI демо-приложения
  • Datadog — упомянут как production-замена для локального getMetrics
  • Воркшоп-репозиторий ship-your-first-managed-agent
  • Следующая сессия конференции — Dreaming for self-improving agents

Рекомендации

  • Открыть лаптоп и пройти воркшоп руками — копировать примитивы из agent_complete.py в agent.py по одному, чтобы прочувствовать композицию
  • Посетить следующую сессию по dreaming для углубления в memory и self-improving agents
  • Изучить документацию по subagents, outcomes, vaults, webhooks — это «beyond the basics» CMA
  • Дать SRE-агенту скилл runbook и доступ к Claude Code, чтобы он не только диагностировал, но и открывал PR с фиксом

Итог

Claude Managed Agents — это попытка Anthropic забрать себе всю инфраструктурную сложность агентов (loop, persistence, scaling, безопасность) через архитектурное разделение «мозга» и «рук», оставив разработчику только то, что реально определяет ценность: задачу, тулзы и контекст.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Claude»

Все видео