Память и сновидения для самообучающихся агентов

Claude8 мая 202661 7721 30221 мая, 18:44

Коротко

Спикер Anthropic объясняет, почему память (memory) — следующий фундаментальный строительный блок агентных систем после MCP, Claude Code, Agent SDK и Skills, и почему она критична для перехода к самообучающимся агентам, работающим часами и днями. Память в Managed Agents API реализована как файловая система, которой Claude управляет сам через bash и grep, без жёстко заданных Anthropic форматов; она вышла в публичное превью две недели назад. Главное внимание уделено мультиагентным сценариям: сотни-тысячи параллельных агентов делят одно состояние памяти, что породило фичи scopes (права доступа), оптимистичной конкурентности через хеш контента и истории версий для аудита. Сегодня запускается новый продукт Dreaming — асинхронный внефазовый процесс, который анализирует недавние сессии агентов, находит общие паттерны и ошибки и автоматически генерирует обновлённое, очищенное от дублей состояние памяти. Приведены метрики первых клиентов: Rakuten снизил прошлые ошибки внутренних knowledge-агентов на 90%, Harvey получил шестикратный рост completion rate на юридическом бенчмарке.

Главный тезис

Память — это недостающий фундаментальный элемент, который превращает агентов из исполнителей разовых задач в самообучающиеся системы, накапливающие опыт и улучшающиеся день за днём; а Dreaming достраивает её внефазовым процессом «осмысления», поднимающим разрозненную память до масштаба общей базы знаний предприятия.

Ключевые идеи

  • 0:51 — за два года модели резко улучшились, и агенты теперь способны выполнять задачи длиной в часы и даже дни, что требует новых базовых элементов инфраструктуры.
  • 1:27 — каждый базовый элемент (MCP, Claude Code, Agent SDK, Skills) добавлял агентам мощности и удлинял горизонт автономной работы.
  • 2:01 — нерешённой проблемой остаётся непрерывное самообучение и управление контекстом в долгих задачах.
  • 2:06 — память названа следующим базовым элементом: через неё агент усваивает критерии успеха, типичные ошибки, удачные и провальные стратегии.
  • 3:13 — память в Managed Agents вышла в публичное превью две недели назад; работает «из коробки» и усиливает интеллект по умолчанию.
  • 3:57Rakuten снизил прошлые ошибки внутренних knowledge-агентов на 90%, потому что агенты стали находить ошибки и передавать их следующему поколению.
  • 4:28 — первое требование: память должна усиливать интеллект по умолчанию, без обязательной ручной настройки разработчиком.
  • 5:30 — память моделируется как файловая система Claude: иерархия файлов, которой модель управляет сама.
  • 6:18 — управление памятью идёт через знакомые инструменты bash и grep, те же, что делают Claude сильным в агентном программировании.
  • 5:52Claude Opus 4.7 оказался особенно силён в файловой памяти: лучше решает, что запоминать и как структурировать.
  • 6:32 — второе требование: память должна масштабироваться на мультиагентные системы, которые Anthropic строит в ближайшие месяцы.
  • 7:14scopes: агент получает read-only доступ к одному хранилищу (организационные знания, best practices) и read-write — к рабочему.
  • 7:59оптимистичная конкурентность: агент через хеш контента проверяет, не перезапишет ли он чужую память, прежде чем обновлять.
  • 8:25 — самая востребованная фича — история версий: полный аудит-лог каждого изменения с метаданными (какой агент, когда, в какой сессии).
  • 11:20Dreaming запускается сегодня в research preview: ищет паттерны и ошибки в недавних сессиях и автоматически производит обновлённое структурированное состояние памяти.
  • 13:37 — Dreaming работает вне фазы конкретной задачи, что позволяет видеть несколько агентов сразу и ловить общие паттерны, недоступные одному агенту.
  • 15:53 — Dreaming подчиняется законам масштабирования: вкладываешь больше вычислений в поддержание памяти — получаешь лучший результат.

Почему это важно

Anthropic позиционирует память и Dreaming как инфраструктурный слой для надвигающейся эпохи мультиагентных систем масштаба предприятия — когда сотни и тысячи агентов параллельно работают в одной среде и делят общее состояние. Выигрывают разработчики и крупные организации, которым нужны не разовые ассистенты, а самоулучшающиеся продакшен-системы с аудируемостью, контролем и предсказуемостью. Сама Anthropic — главный пример: внутри компании уже работают сотни-тысячи параллельных агентов. Упомянуты ранние клиенты Rakuten и Harvey как доказательство ROI. Стратегически Anthropic делает ставку на то, что память превратится из локального контекст-стора в корпоративную базу знаний, и хочет занять этот слой стандартом раньше конкурентов — отсюда переносимый standalone API, чтобы не запирать клиентов в одну систему.

Идеи

  • Изначальная память — это CLAUDE.md, запущенный с Claude Code около полутора лет назад: примитивная версия, где агент оставлял заметки сам себе.
  • В файл памяти заметки иногда оставлял и сам пользователь — двусторонний канал «человек ↔ агент».
  • В SDK уже был отдельный memory tool с фиксированными параметрами и форматами вывода для API-разработчиков.
  • Эволюция дизайна: чем лучше становятся агенты, тем меньше Anthropic им навязывает — больше решений делегируется самому Claude.
  • Логика «раз агенты умеют управлять виртуальной средой и своей файловой системой — пусть так же управляют и памятью».
  • Agent 4.7 сам решает, на сколько файлов разбить память и как поддерживать её организацию внутри файловой системы.
  • Vibe-кодеры уже сейчас запускают по 10–15 сессий Claude Code параллельно.
  • Память может учиться не только из своих задач, но и от других агентов в той же среде — обмен опытом.
  • Агенты могут совместно выявлять «слабые места системы» и встраивать их в общую память.
  • Scopes позволяют разделить «медленную» организационную память (runbooks, SLO) и «быструю» рабочую память, обновляемую часто.
  • Standalone API нужен, потому что клиенты строят кастомные пайплайны: сканируют память на персональные данные (PII), чистят её отдельным маршрутом, клонируют во внешние системы.
  • Команда мыслит память слоями: хранение, структура, контент, операции — и работает над каждым отдельно.
  • Skills рассматриваются как ранняя форма процедурной памяти с простой спецификацией «как освоить новую способность».
  • Замеченное ограничение обычной памяти: сессии не знали того, что независимо выучили другие агенты и сессии.
  • Агенты работали изолированно внутри своей задачи и плохо справлялись с целостным обновлением огромного memory-стора.
  • Dreaming можно запускать по расписанию, через консоль/API или встроить в существующий пайплайн.
  • Типичный паттерн интеграции: запускать Dreaming в момент завершения задачи агентом — на этапе «отбоя», чтобы сохранить извлечённые уроки.
  • Dreaming разделяет цель «качество памяти» и цель «выполнение задачи» — а агентам важны чёткие отдельные цели.
  • Будучи фоновым процессом, Dreaming не добавляет задержку в основной путь текущей задачи.
  • Аналогия с test-time compute: дать модели возможность исследовать и тратить больше ресурсов → заметно лучший итог.
  • Аналогия с поисковой системой: заранее построенный качественный индекс окупается при каждом обращении всех агентов.
  • Стоимость построения индекса памяти «размазывается» на всех читающих агентов.
  • В демо агент SRE мониторит входящие алерты и запускает специализированных агентов для триажа или pull request'ов.
  • В демо второй агент видит заметку первого («мы уже это расследовали, вот обходной путь») и экономит токены и время.
  • Dreaming в демо нашёл, что несколько агентов запускались ровно через 60 секунд после всплеска CPU — признак неэффективной retry-логики, который не видел ни один отдельный агент.
  • Шаг дедупликации: пять идентичных записей от прошлых агентов слиты в одну, устаревшие удалены.
  • Dreaming добавляет «verification note» — пометку, что память проверена по логу операций и на неё можно опереться завтра.

Инсайты

  • Траектория Anthropic — это последовательное снятие ограничений с модели: от жёстко параметризованных инструментов к делегированию решений самому Claude, потому что более сильная модель сама лучше проектирует.
  • Память — не хранилище, а механизм обучения: ценность не в записанных данных, а в превращении опыта в улучшенное будущее поведение.
  • Узкое место мультиагентности — не вычисления, а разделяемое состояние: как только агентов сотни, главными проблемами становятся конфликты записи и потеря знаний между сессиями.
  • Один агент структурно ограничен своей перспективой; общесистемные паттерны видны только наблюдателю «над» агентами — отсюда необходимость внефазового процесса.
  • Разделение целей «сделать задачу» и «улучшить память» — это признание, что совмещённые цели размывают оба результата; чистая цель даёт чистую оптимизацию.
  • Поддержание памяти подчиняется тем же законам масштабирования, что и инференс: качество — это функция от вложенных в него вычислений, а не побочный продукт.
  • Сдвиг парадигмы: память перестаёт быть приватным контекстом задачи и становится общей корпоративной базой знаний — меняется сам объект проектирования.
  • Доверие к автономным системам в продакшене обеспечивается не качеством модели, а наблюдаемостью: аудит-лог и история версий важнее «ума» агента.
  • Переносимость API — стратегическая ставка против запирания клиента: контроль над данными для клиента важнее удобства единой системы.
  • Самоулучшение достигается не дообучением весов, а накоплением и очисткой внешней памяти — обучение выносится из модели в инфраструктуру вокруг неё.
  • Унификация инструментария (та же память на bash и grep, что и кодинг) снижает порог: модель применяет уже освоенные навыки к новой области.

Цитаты

«لذا تعد الذاكرة العنصر الأساسية التالي» — 2:06 Поэтому память — это следующий фундаментальный элемент

«أعتقد أنها ستوصلنا إلى وكلاء يتعلمون ذاتيا ويتطورون ويتحسنون» — 2:11 Я думаю, она приведёт нас к агентам, которые обучаются сами, развиваются и улучшаются

«فلماذا لا نسلك نفس الاتجاه مع الذاكرة؟» — 5:27 Так почему бы не пойти в том же направлении и с памятью?

«وفي النهاية يتم كل هذا باستخدام أدوات باش والجي بي فقط» — 6:18 И в итоге всё это делается только с помощью инструментов bash и grep

«نسمي هذه العملية Dreaming ونطلقها اليوم في معينة بحثية» — 11:20 Мы называем этот процесс Dreaming и запускаем его сегодня в исследовательском превью

«الهدف الأسمى من تقنية الحلم هو التعلم الذاتي المستمر والتحسين الذاتي» — 13:10 Высшая цель технологии Dreaming — непрерывное самообучение и самоулучшение

«حيث تتحسن أداءات الوكلاء في اليوم التالي تلقائيا بناء على ما تعلموه من تجارب اليوم السابق» — 13:15 Когда работа агентов на следующий день автоматически улучшается на основе того, что они выучили из вчерашнего опыта

«وهكذا يتحول هذا فعليا إلى قاعدة معرفية ضخمة بدلا من مجرد مخزن ذاكرة بسيط» — 15:30 Так это фактически превращается в огромную базу знаний, а не просто в простое хранилище памяти

«لقد قمت بهذا التغيير دعونا نتأكد من صحة البيانات قبل استبدالها» — 20:16 Я внёс это изменение — давайте убедимся в корректности данных, прежде чем заменять их

«وأعتقد أن الذاكرة ستكون جزءاً أساسياً من هذا النظام وهي ما يجعله ممكناً في نهاية المطاف» — 23:23 И я думаю, память станет ключевой частью этой системы — именно она в конечном счёте делает её возможной

«حسناً يجب أن تبدأ اليوم» — 23:36 Что ж, начинать стоит сегодня

Факты

  • Rakuten заявила, что система памяти помогла снизить прошлые ошибки внутренних knowledge-агентов на 90%.
  • Harvey при внедрении Dreaming в одном из своих юридических бенчмарков (реалистичный правовой сценарий) зафиксировала шестикратный рост completion rate.
  • CLAUDE.md был запущен вместе с Claude Code примерно полтора года назад как ранняя ограниченная версия памяти.
  • Claude Opus 4.7 был выпущен «в прошлом месяце» (относительно даты доклада) и оказался силён в файловой памяти.
  • Skills были запущены в октябре.
  • Память в Managed Agents (cloud) вышла в публичное превью «две недели назад».
  • Dreaming запускается «сегодня» в формате research preview внутри Managed Agents API.
  • Часть vibe-кодеров запускают 10–15 сессий Claude Code одновременно.
  • В организациях вроде Anthropic параллельно работают сотни, иногда тысячи агентов, делящих общие данные и память.
  • В демо Dreaming обнаружил, что группа агентов запускалась ровно через 60 секунд после всплеска нагрузки на CPU.
  • В демо шаг дедупликации слил пять идентичных записей от прошлых агентов в одну.
  • Dreaming реализован как асинхронный фоновый процесс, не добавляющий задержку в основной путь задачи.

Источники

  • MCP (Model Context Protocol) — доступ агентов к внешним инструментам и данным
  • Claude Code — агентный инструмент программирования
  • Agent SDK — набор для разработки агентов
  • Skills — механизм приобретения агентами новых способностей (октябрь)
  • CLAUDE.md — ранняя форма памяти
  • Claude Opus 4.7 — модель, сильная в файловой памяти
  • Managed Agents API + облачная консоль — платформа для памяти и Dreaming
  • Rakuten — клиент, кейс по снижению ошибок knowledge-агентов
  • Harvey — клиент, кейс по юридическому бенчмарку и Dreaming

Итог

Память превращает агентов в самообучающиеся системы, а Dreaming достраивает её фоновым «осмыслением» опыта — вместе они образуют слой, на котором мультиагентные системы предприятия станут не просто исполнять задачи, а становиться умнее с каждым днём.

readmint Pro

Понравилось саммари? Сделайте такое же по своему видео

Вставьте ссылку на любое YouTube-видео — readmint расшифрует его и соберёт пересказ с главными тезисами и цитатами. Без воды и перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Саммари своего видео
Вставьте ссылку на YouTube, разбор будет готов за 2–3 минуты.

Безлимит по подписке readmint Pro — 499 ₽/мес