Коротко
Isabella He из Applied AI team в Anthropic проводит воркшоп по Claude Managed Agents — новой управляемой инфраструктуре для агентов, которая берёт на себя hosting, scaling, compaction, caching и context management. Ключевое архитектурное решение — разделение «мозга» (agent loop на сервере Anthropic) и «рук» (tool execution локально или в собственной инфраструктуре), что даёт >90% сокращение P95 TTFT и сильную изоляцию credentials. Воркшоп строит SRE-агента для incident response на трёх примитивах: agents (персона + tools), environments (sandbox), sessions (связка + стриминг событий). Сессии работают в терминах events, а не request/response — это даёт persistence, resumability и observability из коробки. В конце — обзор расширенных возможностей: subagents, memory + dreaming, outcomes (rubric-based), vaults, webhooks, MCP tunnels.
Главный тезис
Harnesses должны эволюционировать вместе с моделями — поэтому имеет смысл отдать Anthropic'у всю инфраструктурную сложность (compaction, caching, context anxiety, hosting) и сфокусироваться на том, что реально приносит value: задачи, тулзы и domain expertise агента.
Ключевые идеи
- 4:38 — harness должен эволюционировать вместе с моделью: код против
context anxietyв Sonnet 4.5 стал обсолетным с выходом Opus 4.5 - 7:34 — раньше agent loop был жёстко связан с tool execution; в CMA эти слои разделены
- 8:55 — decoupling «мозга» и «рук» дал >90% reduction в P95 TTFT, потому что не нужно поднимать контейнер на каждую сессию
- 5:45 — три примитива CMA: agent (персона + capabilities), environment (sandbox + networking allowlist), session (связка agent+env)
- 6:45 — agent loop крутится на сервере Anthropic; закрыл лаптоп — сессия продолжает жить
- 28:34 — сессии общаются events, а не request/response — события аппендятся в лог сессии
- 14:53 — MCP tunnels позволяют запускать MCP-серверы в приватной сети, а не на публичной
- 14:08 — bring your own compute: можно исполнять tools в собственной инфраструктуре, а не только в Anthropic Cloud
- 16:10 — context engineering — основное, на что тратят время разработчики поверх CMA
- 31:31 — webhooks могут резюмить сессию или триггерить состояние по внешнему событию
- 34:31 — Outcomes: вместо «вызови тулзы» агенту задают rubric желаемого результата, и он сам выбирает путь
- 33:53 — Dreaming: агент ходит по своим memory-логам и сам решает, что оставить в памяти
- 35:11 — Vaults: credentials шифруются на отдельном эндпоинте, агент не имеет прямого доступа — это побочный профит decoupling'а brain/hands
- 29:14 — если контейнер упал, его поднимают заново без рестарта agent loop — это и есть профит разделения
- 26:45 — сессии живут в states: idle, running, rescheduling, terminated — состоянием можно управлять извне
Почему это важно
Anthropic переходит от продажи токенов (Messages API) к продаже управляемой агентной инфраструктуры, забирая у разработчиков всё, что не относится к доменной логике — hosting, scaling, durability, compaction, observability. Это прямой ответ на проблему «прототип на агент SDK работает, а в прод не доезжает». Выигрывают разработчики, которым не нужно собирать reliability-стек руками (заявлено 10–15× быстрее в прод), и сама Anthropic, превращающаяся из API-провайдера в платформу для агентов (по аналогии с тем, как AWS отъел инфру у дата-центров). Проигрывают самопальные harness-решения и часть value у обёрток типа LangChain — Anthropic забирает primitives себе. Упомянуты Datadog (как пример swap'а тулзы из локального JSON в production-систему) и Claude Code как референсный агент.
Идеи
- Context anxiety — реальная поведенческая патология модели: Sonnet 4.5 заканчивал задачи рано даже при свободном контексте; в Opus 4.7 ушло само
- Anthropic исправляет behavioral quirks модели через временные патчи в harness, а потом откатывает их когда модель эволюционирует
- Разделение brain/hands даёт безопасность не как side-effect, а как архитектурное свойство: credentials физически вне досягаемости agent loop
- Networking в environment — это allowlist, не denylist; default = unrestricted, но можно сузить до конкретных URL
- Файлы передаются агенту через files API, а агент гоняет код в sandbox'е для их обработки — это паттерн из Claude Code
- Sessions общаются events'ами не ради API-эстетики, а потому что append-only log = тривиальный resume после падения
- Webhook + state machine сессии = агент может «спать» и просыпаться от внешних триггеров без polling'а
- Outcomes как rubric-driven execution — это движение от imperative агентов к declarative: говоришь «что», агент решает «как»
- Dreaming — это самокурация памяти: агент сам решает что забыть, не разработчик
- Console Agent Builder — UI для определения агента прямо в developer console, без кода
- Local tools загружаются из JSON и регистрируются через wire protocol —
getMetricsиз JSON меняется наgetMetricsиз Datadog без переписки агента - Скиллы типа «runbook» — давай агенту тот же набор материалов, что есть у человека-инженера на инциденте
- SRE — каноничный first-use-case для агентов: ночные звонки, structured environment, clear success metric
- Hard refresh страницы — встроенный smoke test на server-side persistence; если сессии остались, persistence реально работает
- Free credits раздавали через QR — типичный playbook для onboarding'а разработчиков на новый продукт
- «Bring your own compute» вышло на Code with Claude London за день до воркшопа — Anthropic выкатывает features в реальном времени к ивентам
- Дублирование agent.py vs agent_complete.py для воркшопа — копи-пейст одной примитивы за раз даёт лучший mental model, чем готовый код
- Удаление сессии чистит её из всех logs — compliance-фича, а не косметика
- 10–15× ускорение до prod — заявленный, не измеренный публично, цифра маркетинговая
- Демо в реальном времени сбоило (агент «потерялся»), спикер открыто признала и перезапустила агента — нормализация ненадёжности демо
- Multi-agent сделан в первую очередь для context isolation, а уже потом для параллелизма
- Decoupling tool execution — это де-факто превращение агентного фреймворка в distributed system, где brain и hands могут жить в разных доверительных зонах
Инсайты
- Управляемые агенты — это AWS-момент для AI-агентов: модель-провайдер забирает себе инфра-слой, оставляя разработчикам только domain logic
- Архитектура «brain server-side / hands client-side» — это не выбор, а инверсия безопасной модели по умолчанию: чем меньше у LLM прямого доступа к credentials, тем безопаснее
- Когда model intelligence растёт, сложность сдвигается вверх по стеку: примитивы агента становятся сложнее, harness обязан расти, иначе модель упирается в потолок harness'а
- Append-only event log + server-side state machine — общая архитектура надёжных distributed-систем (Kafka, event sourcing); агенты пришли к этому потому же, почему пришли БД
- Outcomes-based execution — переход от prompt engineering к goal engineering: специфицируешь критерий, а не последовательность
- Self-curating memory (dreaming) — признание того, что наивное накопление контекста ломает агента; нужен отдельный процесс «забывания»
- Vendor lock-in в эпоху агентов будет происходить на уровне harness'а, а не модели: миграция модели — это смена endpoint'а, миграция harness'а — переписывание агента
- Production-readiness агента — это не качество модели, а 90% инфраструктурной обвязки; именно её Anthropic монетизирует
- Decoupling «мозга» и «рук» делает агента failure-tolerant как stateless web-сервис: контейнер упал — поднимаем новый, loop продолжается
- Сильное TTFT-улучшение от архитектурного решения, а не от ускорения модели — показатель, что большая часть latency в агентах сидит в обвязке, не в инференсе
- Воркшоп копирует код из
agent_complete.pyвagent.pyпо кусочкам не из лени, а как педагогический приём — отделение примитивов в сознании разработчика - SRE-агент удобен как демо потому, что у него есть objective truth: либо нашёл root cause, либо нет — в отличие от агентов творческих задач
Цитаты
«harnesses should evolve alongside your agents» — 4:38 harness должен эволюционировать вместе с твоими агентами
«With Sonnet 4.5, Claude started wrapping up tasks early even when it still had room to spare in its context window» — 5:00 С Sonnet 4.5 Claude начал сворачивать задачи рано, даже когда в контекстном окне ещё оставалось место
«over 90% reduction in TTFT for our P95 metrics on latency» — 8:55 снижение TTFT более чем на 90% по P95-метрикам latency
«the agent loop coupled tightly with tool execution» — 7:34 agent loop был жёстко связан с исполнением тулзов
«sessions speak in events and not responses in and tokens out» — 28:34 сессии говорят в событиях, а не в request/response
«when you close your laptop or you hit hard refresh on your agent that you're building on Claude Manage Agents, everything is maintained» — 7:04 когда ты закрываешь лаптоп или жмёшь hard refresh — всё сохраняется
«context engineering is a huge portion that comes to actually making an agent powerful» — 16:10 context engineering — огромная часть того, что делает агента сильным
«you can actually have a webhook run. And when an event happens from a webhook, the agent receives that webhook in and can then do something like resume a session» — 31:26 можно запустить webhook, и при наступлении события агент получает его и может, например, возобновить сессию
«you can define a rubric of exactly what you want the agent to produce, and it'll figure out along the way which tool calls and what it needs to do» — 34:45 задаёшь рубрику того, что должен произвести агент, а он сам разбирается, какие тулзы вызывать
«Claude can actually come and also look through its own memory logs and determine what to keep» — 34:08 Claude может сам пройтись по своим memory-логам и решить, что оставить
«you as a human developer can just become the oversight and watch over the agents as they take action» — 25:41 ты как разработчик-человек становишься надзором и просто следишь, как агенты действуют
«if a container goes down, we can just spin that container back up again, and we don't have to restart the entire agent loop» — 29:14 если контейнер упал, мы просто поднимаем его заново и не перезапускаем весь agent loop
«We've seen people build 10 to 15 times faster to production with Claude Managed Agents» — 4:25 Мы видим, что люди доходят до прода в 10–15 раз быстрее с Claude Managed Agents
«Give the agent same access to the materials that you would have as a human developer» — 22:05 Дай агенту такой же доступ к материалам, какой есть у тебя как разработчика-человека
Факты
- Спикер — Isabella He, member of technical staff, Applied AI team, Anthropic
- Первый Claude и Messages API вышли в 2023
- Эволюция стека: Messages API → Agent SDK (программный вызов Claude Code) → Claude Managed Agents (полный managed harness)
- В демо используется модель Claude Opus 4.7
- Поведение context anxiety наблюдалось у Sonnet 4.5 и исчезло в Opus 4.5
- Decoupling agent loop и tool execution дал >90% reduction в P95 TTFT (по внутренним метрикам Anthropic)
- Заявлено ускорение пути в прод: 10–15× быстрее с CMA
- На Code with Claude London за день до воркшопа выкатили bring your own containers / compute
- Также анонсированы Cloud MCP tunnels (приватные MCP-серверы) и новые MCP server controls
- Сессии в CMA имеют состояния: idle, running, rescheduling, terminated
- Демо-агент использует тулзы:
getMetrics,getRecentDeploys,getDiff,bash, sandbox - В демо-инциденте root cause — database pool exhaustion, вызванный коммитом «Alice» с рефактором order summary builder
- Репозиторий воркшопа:
ship-your-first-managed-agent, запуск черезstreamlit run app.py - Сразу после воркшопа — отдельная сессия по dreaming
Источники
- Claude Managed Agents — managed-harness Anthropic
- Agent SDK — программный harness для Claude Code
- Messages API — первый API Anthropic (2023)
- Claude Code — референсный агент Anthropic с доступом к файловой системе
- Cloud MCP tunnels — приватные MCP-серверы
- Streamlit — фреймворк для UI демо-приложения
- Datadog — упомянут как production-замена для локального
getMetrics - Воркшоп-репозиторий
ship-your-first-managed-agent - Следующая сессия конференции — Dreaming for self-improving agents
Рекомендации
- Открыть лаптоп и пройти воркшоп руками — копировать примитивы из
agent_complete.pyвagent.pyпо одному, чтобы прочувствовать композицию - Посетить следующую сессию по dreaming для углубления в memory и self-improving agents
- Изучить документацию по subagents, outcomes, vaults, webhooks — это «beyond the basics» CMA
- Дать SRE-агенту скилл runbook и доступ к Claude Code, чтобы он не только диагностировал, но и открывал PR с фиксом
Итог
Claude Managed Agents — это попытка Anthropic забрать себе всю инфраструктурную сложность агентов (loop, persistence, scaling, безопасность) через архитектурное разделение «мозга» и «рук», оставив разработчику только то, что реально определяет ценность: задачу, тулзы и контекст.