Запусти своего первого Managed Agent

Claude26 мая 202619 39645910 мин чтения28 мая, 11:24

Технологии Искусственный Интеллект Агенты Программирование Автоматизация

Коротко

Isabella He из Applied AI team в Anthropic проводит воркшоп по Claude Managed Agents — новой управляемой инфраструктуре для агентов, которая берёт на себя hosting, scaling, compaction, caching и context management. Ключевое архитектурное решение — разделение «мозга» (agent loop на сервере Anthropic) и «рук» (tool execution локально или в собственной инфраструктуре), что даёт >90% сокращение P95 TTFT и сильную изоляцию credentials. Воркшоп строит SRE-агента для incident response на трёх примитивах: agents (персона + tools), environments (sandbox), sessions (связка + стриминг событий). Сессии работают в терминах events, а не request/response — это даёт persistence, resumability и observability из коробки. В конце — обзор расширенных возможностей: subagents, memory + dreaming, outcomes (rubric-based), vaults, webhooks, MCP tunnels.

Главный тезис

Harnesses должны эволюционировать вместе с моделями — поэтому имеет смысл отдать Anthropic'у всю инфраструктурную сложность (compaction, caching, context anxiety, hosting) и сфокусироваться на том, что реально приносит value: задачи, тулзы и domain expertise агента.

Ключевые идеи

4:38 — harness должен эволюционировать вместе с моделью: код против context anxiety в Sonnet 4.5 стал обсолетным с выходом Opus 4.5
7:34 — раньше agent loop был жёстко связан с tool execution; в CMA эти слои разделены
8:55 — decoupling «мозга» и «рук» дал >90% reduction в P95 TTFT, потому что не нужно поднимать контейнер на каждую сессию
5:45 — три примитива CMA: agent (персона + capabilities), environment (sandbox + networking allowlist), session (связка agent+env)
6:45 — agent loop крутится на сервере Anthropic; закрыл лаптоп — сессия продолжает жить
28:34 — сессии общаются events, а не request/response — события аппендятся в лог сессии
14:53 — MCP tunnels позволяют запускать MCP-серверы в приватной сети, а не на публичной
14:08 — bring your own compute: можно исполнять tools в собственной инфраструктуре, а не только в Anthropic Cloud
16:10 — context engineering — основное, на что тратят время разработчики поверх CMA
31:31 — webhooks могут резюмить сессию или триггерить состояние по внешнему событию
34:31 — Outcomes: вместо «вызови тулзы» агенту задают rubric желаемого результата, и он сам выбирает путь
33:53 — Dreaming: агент ходит по своим memory-логам и сам решает, что оставить в памяти
35:11 — Vaults: credentials шифруются на отдельном эндпоинте, агент не имеет прямого доступа — это побочный профит decoupling'а brain/hands
29:14 — если контейнер упал, его поднимают заново без рестарта agent loop — это и есть профит разделения
26:45 — сессии живут в states: idle, running, rescheduling, terminated — состоянием можно управлять извне

Почему это важно

Anthropic переходит от продажи токенов (Messages API) к продаже управляемой агентной инфраструктуры, забирая у разработчиков всё, что не относится к доменной логике — hosting, scaling, durability, compaction, observability. Это прямой ответ на проблему «прототип на агент SDK работает, а в прод не доезжает». Выигрывают разработчики, которым не нужно собирать reliability-стек руками (заявлено 10–15× быстрее в прод), и сама Anthropic, превращающаяся из API-провайдера в платформу для агентов (по аналогии с тем, как AWS отъел инфру у дата-центров). Проигрывают самопальные harness-решения и часть value у обёрток типа LangChain — Anthropic забирает primitives себе. Упомянуты Datadog (как пример swap'а тулзы из локального JSON в production-систему) и Claude Code как референсный агент.

Идеи

Context anxiety — реальная поведенческая патология модели: Sonnet 4.5 заканчивал задачи рано даже при свободном контексте; в Opus 4.7 ушло само
Anthropic исправляет behavioral quirks модели через временные патчи в harness, а потом откатывает их когда модель эволюционирует
Разделение brain/hands даёт безопасность не как side-effect, а как архитектурное свойство: credentials физически вне досягаемости agent loop
Networking в environment — это allowlist, не denylist; default = unrestricted, но можно сузить до конкретных URL
Файлы передаются агенту через files API, а агент гоняет код в sandbox'е для их обработки — это паттерн из Claude Code
Sessions общаются events'ами не ради API-эстетики, а потому что append-only log = тривиальный resume после падения
Webhook + state machine сессии = агент может «спать» и просыпаться от внешних триггеров без polling'а
Outcomes как rubric-driven execution — это движение от imperative агентов к declarative: говоришь «что», агент решает «как»
Dreaming — это самокурация памяти: агент сам решает что забыть, не разработчик
Console Agent Builder — UI для определения агента прямо в developer console, без кода
Local tools загружаются из JSON и регистрируются через wire protocol — getMetrics из JSON меняется на getMetrics из Datadog без переписки агента
Скиллы типа «runbook» — давай агенту тот же набор материалов, что есть у человека-инженера на инциденте
SRE — каноничный first-use-case для агентов: ночные звонки, structured environment, clear success metric
Hard refresh страницы — встроенный smoke test на server-side persistence; если сессии остались, persistence реально работает
Free credits раздавали через QR — типичный playbook для onboarding'а разработчиков на новый продукт
«Bring your own compute» вышло на Code with Claude London за день до воркшопа — Anthropic выкатывает features в реальном времени к ивентам
Дублирование agent.py vs agent_complete.py для воркшопа — копи-пейст одной примитивы за раз даёт лучший mental model, чем готовый код
Удаление сессии чистит её из всех logs — compliance-фича, а не косметика
10–15× ускорение до prod — заявленный, не измеренный публично, цифра маркетинговая
Демо в реальном времени сбоило (агент «потерялся»), спикер открыто признала и перезапустила агента — нормализация ненадёжности демо
Multi-agent сделан в первую очередь для context isolation, а уже потом для параллелизма
Decoupling tool execution — это де-факто превращение агентного фреймворка в distributed system, где brain и hands могут жить в разных доверительных зонах

Инсайты

Управляемые агенты — это AWS-момент для AI-агентов: модель-провайдер забирает себе инфра-слой, оставляя разработчикам только domain logic
Архитектура «brain server-side / hands client-side» — это не выбор, а инверсия безопасной модели по умолчанию: чем меньше у LLM прямого доступа к credentials, тем безопаснее
Когда model intelligence растёт, сложность сдвигается вверх по стеку: примитивы агента становятся сложнее, harness обязан расти, иначе модель упирается в потолок harness'а
Append-only event log + server-side state machine — общая архитектура надёжных distributed-систем (Kafka, event sourcing); агенты пришли к этому потому же, почему пришли БД
Outcomes-based execution — переход от prompt engineering к goal engineering: специфицируешь критерий, а не последовательность
Self-curating memory (dreaming) — признание того, что наивное накопление контекста ломает агента; нужен отдельный процесс «забывания»
Vendor lock-in в эпоху агентов будет происходить на уровне harness'а, а не модели: миграция модели — это смена endpoint'а, миграция harness'а — переписывание агента
Production-readiness агента — это не качество модели, а 90% инфраструктурной обвязки; именно её Anthropic монетизирует
Decoupling «мозга» и «рук» делает агента failure-tolerant как stateless web-сервис: контейнер упал — поднимаем новый, loop продолжается
Сильное TTFT-улучшение от архитектурного решения, а не от ускорения модели — показатель, что большая часть latency в агентах сидит в обвязке, не в инференсе
Воркшоп копирует код из agent_complete.py в agent.py по кусочкам не из лени, а как педагогический приём — отделение примитивов в сознании разработчика
SRE-агент удобен как демо потому, что у него есть objective truth: либо нашёл root cause, либо нет — в отличие от агентов творческих задач

Цитаты

«harnesses should evolve alongside your agents» — 4:38 harness должен эволюционировать вместе с твоими агентами

«With Sonnet 4.5, Claude started wrapping up tasks early even when it still had room to spare in its context window» — 5:00 С Sonnet 4.5 Claude начал сворачивать задачи рано, даже когда в контекстном окне ещё оставалось место

«over 90% reduction in TTFT for our P95 metrics on latency» — 8:55 снижение TTFT более чем на 90% по P95-метрикам latency

«the agent loop coupled tightly with tool execution» — 7:34 agent loop был жёстко связан с исполнением тулзов

«sessions speak in events and not responses in and tokens out» — 28:34 сессии говорят в событиях, а не в request/response

«when you close your laptop or you hit hard refresh on your agent that you're building on Claude Manage Agents, everything is maintained» — 7:04 когда ты закрываешь лаптоп или жмёшь hard refresh — всё сохраняется

«context engineering is a huge portion that comes to actually making an agent powerful» — 16:10 context engineering — огромная часть того, что делает агента сильным

«you can actually have a webhook run. And when an event happens from a webhook, the agent receives that webhook in and can then do something like resume a session» — 31:26 можно запустить webhook, и при наступлении события агент получает его и может, например, возобновить сессию

«you can define a rubric of exactly what you want the agent to produce, and it'll figure out along the way which tool calls and what it needs to do» — 34:45 задаёшь рубрику того, что должен произвести агент, а он сам разбирается, какие тулзы вызывать

«Claude can actually come and also look through its own memory logs and determine what to keep» — 34:08 Claude может сам пройтись по своим memory-логам и решить, что оставить

«you as a human developer can just become the oversight and watch over the agents as they take action» — 25:41 ты как разработчик-человек становишься надзором и просто следишь, как агенты действуют

«if a container goes down, we can just spin that container back up again, and we don't have to restart the entire agent loop» — 29:14 если контейнер упал, мы просто поднимаем его заново и не перезапускаем весь agent loop

«We've seen people build 10 to 15 times faster to production with Claude Managed Agents» — 4:25 Мы видим, что люди доходят до прода в 10–15 раз быстрее с Claude Managed Agents

«Give the agent same access to the materials that you would have as a human developer» — 22:05 Дай агенту такой же доступ к материалам, какой есть у тебя как разработчика-человека

Факты

Спикер — Isabella He, member of technical staff, Applied AI team, Anthropic
Первый Claude и Messages API вышли в 2023
Эволюция стека: Messages API → Agent SDK (программный вызов Claude Code) → Claude Managed Agents (полный managed harness)
В демо используется модель Claude Opus 4.7
Поведение context anxiety наблюдалось у Sonnet 4.5 и исчезло в Opus 4.5
Decoupling agent loop и tool execution дал >90% reduction в P95 TTFT (по внутренним метрикам Anthropic)
Заявлено ускорение пути в прод: 10–15× быстрее с CMA
На Code with Claude London за день до воркшопа выкатили bring your own containers / compute
Также анонсированы Cloud MCP tunnels (приватные MCP-серверы) и новые MCP server controls
Сессии в CMA имеют состояния: idle, running, rescheduling, terminated
Демо-агент использует тулзы: getMetrics, getRecentDeploys, getDiff, bash, sandbox
В демо-инциденте root cause — database pool exhaustion, вызванный коммитом «Alice» с рефактором order summary builder
Репозиторий воркшопа: ship-your-first-managed-agent, запуск через streamlit run app.py
Сразу после воркшопа — отдельная сессия по dreaming

Источники

Claude Managed Agents — managed-harness Anthropic
Agent SDK — программный harness для Claude Code
Messages API — первый API Anthropic (2023)
Claude Code — референсный агент Anthropic с доступом к файловой системе
Cloud MCP tunnels — приватные MCP-серверы
Streamlit — фреймворк для UI демо-приложения
Datadog — упомянут как production-замена для локального getMetrics
Воркшоп-репозиторий ship-your-first-managed-agent
Следующая сессия конференции — Dreaming for self-improving agents

Рекомендации

Открыть лаптоп и пройти воркшоп руками — копировать примитивы из agent_complete.py в agent.py по одному, чтобы прочувствовать композицию
Посетить следующую сессию по dreaming для углубления в memory и self-improving agents
Изучить документацию по subagents, outcomes, vaults, webhooks — это «beyond the basics» CMA
Дать SRE-агенту скилл runbook и доступ к Claude Code, чтобы он не только диагностировал, но и открывал PR с фиксом

Итог

Claude Managed Agents — это попытка Anthropic забрать себе всю инфраструктурную сложность агентов (loop, persistence, scaling, безопасность) через архитектурное разделение «мозга» и «рук», оставив разработчику только то, что реально определяет ценность: задачу, тулзы и контекст.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Claude»

Все видео

Программируй с Claude 2026: вступительный кейноут

Программируй с Claude 2026: вступительный кейноут

Память и сновидения для самообучающихся агентов

Память и сновидения для самообучающихся агентов

Running an AI-native engineering org

Running an AI-native engineering org