Создание более эффективных ИИ-агентов

Anthropic17 октября 202583 4941 83215 мая, 14:46

Коротко

Алекс (Claude Relations, Anthropic) и Эрик (multi-agent research, Anthropic) обсуждают, как Anthropic тренирует Claude быть агентом через RL на открытых задачах, и почему кодинг стал фундаментальным навыком, переносимым на всё остальное. Разбирается Claude Code SDK как универсальный агентный цикл, расширение CLAUDE.md до skills (инструкции + ресурсы), и переход от workflow к агентам и далее к «workflow из агентов», где каждый шаг — замкнутый цикл с обратной связью. Эрик подробно объясняет multi-agent: parent-агент делегирует подзадачи sub-агентам (через интерфейс tool calling), что даёт параллелизм, экономию контекста и test-time compute. Главные failure modes — переусложнение и коммуникационный overhead между агентами; ключевые best practices — начинать с простого, смотреть транскрипт глазами модели, проектировать tools/MCP под UI, а не под API. В перспективе 6-12 месяцев — самопроверка агентов через computer use и закрытие петли тестирования.

Главный тезис

Агенты вытеснили workflow там, где важна качество, но строить их нужно от простейшего к сложному; multi-agent — это форма test-time compute, где несколько Claude параллельно дают лучший результат, чем один, при условии что overhead коммуникации не съедает выгоду.

Ключевые идеи

  • Claude тренируется быть агентом через RL на open-ended задачах с инструментами и многими шагами, в первую очередь на coding и search — это даёт перенос на любые домены.
  • Кодинг — фундаментальный навык агента: умеющий писать код агент закрывает поиск (через API), планирование, генерацию артефактов (SVG, Excel) — «тренируй на самом сложном, остальное станет лёгким».
  • Написание кода для создания артефакта часто эффективнее прямой генерации: Claude писал Python-скрипт для генерации повторяющегося SVG быстрее, чем рисовал бы вручную — у Claude есть for loop.
  • Claude Code SDK = готовый агентный цикл (loops, tools, file/MCP interaction), на который разработчики ставят свою бизнес-логику через MCP вместо реизобретения велосипеда.
  • Skills — расширение CLAUDE.md: помимо инструкций можно подкладывать любые файлы-ресурсы (PowerPoint-шаблоны, изображения, headshots руководства, helper-скрипты) — аналогия с загрузкой кунг-фу в Нео.
  • Эволюция от workflow к workflow из агентов: раньше шаг workflow был single-shot SQL-запросом и ломался при ошибке; теперь каждый шаг — замкнутый цикл, где Claude видит вывод и итерирует до правильного результата.
  • Observability — главный вызов с ростом сложности; отсюда правило: начинай с simplest possible thing (single-shot или Claude Code SDK) и наращивай слои только по необходимости.
  • Multi-agent ≠ workflow из агентов: parent-агент делегирует параллельно работающим sub-агентам — так устроен deep research search.
  • Sub-agent как tool: для Claude sub-агент выглядит как инструмент, в который передаётся prompt-параметр; backed by another Claude.
  • Subagent для защиты контекста: если задача съест десятки тысяч токенов (например, поиск определённого класса), её offload в sub-agent сохраняет main context чистым.
  • Claude как менеджер: модель совершает ошибки first-time managers — даёт неполные инструкции sub-агентам; обучение делает её более verbose и контекстно-полной.
  • Map-reduce паттерн: 10 частей вывода → 10 sub-агентов параллельно; экономия контекста и времени.
  • Tool bucketing: при 100-200 инструментах их раскидывают по sub-агентам, каждый видит ~20 инструментов — main agent выбирает «bucket».
  • Failure mode — overbuilt multi-agent: агенты болтают друг с другом и не двигаются к задаче, как раздутая корпорация.
  • Best practice — tools/MCP проектируются под UI, не под API: модель — пользователь, не программа; три endpoint API → один tool, отдающий всё сразу, иначе три tool calls на каждое действие.
  • Будущее — computer use + самопроверка: Claude пишет web-приложение, сам открывает, тестирует, находит баг — закрытие QA-петли; работа прямо в Google Docs без copy-paste.

Почему это важно

Anthropic продвигает позицию, что центр гравитации в построении ИИ-продуктов сместился с prompt engineering и workflows на агентные циклы, и теперь — на multi-agent оркестрацию. Это прямо выгодно Anthropic: Claude Code SDK становится дефолтным runtime для агентов, skills и MCP — точкой привязки разработчиков к экосистеме, а multi-agent оправдывает кратное потребление токенов (test-time compute). Выигрывают разработчики, которым не нужно строить агентный loop с нуля, и Anthropic, забирающий слой ниже приложения. Проигрывают конкурирующие фреймворки оркестрации (LangChain-style workflow-движки), позиционируемые как «слишком жёсткие» против итеративных агентов. Упомянутые продукты-витрины — deep research search и Claude Code — показывают, что multi-agent уже в production.

Цитаты

«letting many clods work on a problem can get you a better final answer than just one» Если позволить многим Claude работать над задачей, итоговый ответ будет лучше, чем у одного

«once you have an amazing coding agent, a coding agent can do any other kind of work» Когда у тебя есть отличный coding-агент, он может делать любую другую работу

«train on the hardest thing first and then everything else will become easy» Тренируй на самом сложном — и всё остальное станет лёгким

«Claude gets a for loop» У Claude есть цикл for

«agent loops really dramatically outperform workflows for most things where you care most about absolute quality» Агентные циклы драматически превосходят workflow там, где важно абсолютное качество

«Claude makes a lot of the same mistakes that first-time managers make» Claude совершает те же ошибки, что и менеджеры-новички

«tools for the model or MCPs should be one-to-one with your UI, not your API» Инструменты и MCP для модели должны соответствовать вашему UI, а не вашему API

«the model only sees what we show it» Модель видит только то, что мы ей показываем

«I don't have to be Claude's QA engineer» Мне не нужно быть QA-инженером для Claude

«multi-agent as a form of test-time compute» Multi-agent как форма test-time compute

Факты

  • Алекс — глава Claude Relations в Anthropic; Эрик — research на multi-agent в Anthropic.
  • Claude тренируется как агент через RL на open-ended задачах с инструментами и многими шагами.
  • Основные домены RL-тренировки: coding и search.
  • Эрик использовал Claude для генерации SVG-диаграмм к презентации — через написание кода, а не прямую отрисовку.
  • В claude.ai на вебе Claude умеет создавать файлы (например, Excel) через написание и исполнение Python-скрипта.
  • Claude Code SDK включает встроенные loops, tool execution, file и MCP interaction.
  • Эрик планировал свидание через Claude Code: web-поиск активностей и ресторанов; результат — Filoli Gardens + китайский ресторан рядом.
  • Skills позволяют подкладывать PowerPoint-шаблоны, headshots сотрудников, helper-скрипты, ассеты.
  • Deep Research Search в Anthropic построен на multi-agent: orchestrator создаёт несколько sub-агентов для параллельных поисков.
  • В Claude Code sub-агент используется для задач на десятки тысяч токенов (например, поиск конкретной имплементации класса), чтобы защитить main context.
  • Sub-agent технически реализован через tool calling: backed by another Claude.
  • Кейс с 100-200 инструментами: разбивка по sub-агентам, каждый видит ~20 tools.
  • Пример антипаттерна tools: 3 отдельных endpoint в Slack API (загрузка conversation, user ID → username, channel ID → channel name) → 3 tool calls вместо одного.
  • Эрик прогнозирует усиление агентов в верифицируемых областях (software engineering) в ближайшие 6-12 месяцев.
  • Computer use упоминается как путь к редактированию Google Docs напрямую, без copy-paste.

Итог

Будущее агентов — это простые по дизайну, но многоуровневые системы, где Claude параллельно делегирует задачи копиям себя через интерфейс инструментов и сам закрывает петлю проверки через computer use, превращая coding-агента в универсального исполнителя.

readmint Pro

Понравилось саммари? Сделайте такое же по своему видео

Вставьте ссылку на любое YouTube-видео — readmint расшифрует его и соберёт пересказ с главными тезисами и цитатами. Без воды и перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Саммари своего видео
Вставьте ссылку на YouTube, разбор будет готов за 2–3 минуты.

Безлимит по подписке readmint Pro — 499 ₽/мес