Память и сновидения для самообучающихся агентов

Claude8 мая 202667 5501 4139 мин чтения21 мая, 18:44

Коротко

Anthropic запустил новый компонент платформы — Memory (память для агентов) в public beta две недели назад, и сегодня анонсирует исследовательскую функцию Dreaming — внеконтекстный процесс, который агент запускает в фоне для реорганизации, дедупликации и улучшения своих хранилищ памяти. Память реализована как файловая система (по аналогии с CLAUDE.md и skills), которой агент управляет через Bash и grep, без жёсткой схемы со стороны Anthropic. В Claude Opus 4.7 конкретно улучшена способность решать, что класть в память, как её структурировать и на сколько файлов разбивать. Ранние клиенты — Rakuten снизил повторение прошлых ошибок во внутреннем агенте на 90%, Harvey на собственном юридическом бенчмарке получил 6× прирост completion rate после применения Dreaming. Спикер позиционирует Dreaming как третий после inference-time compute и search indexing способ тратить дополнительные вычисления заранее ради более качественного результата.

Главный тезис

Следующий шаг развития агентов — не более длинные контексты и не более мощные модели, а self-managing memory: агент сам ведёт файловую память во время работы, а отдельный фоновый процесс (Dreaming) периодически перечитывает логи многих сессий, находит общие паттерны и реорганизует память так, чтобы будущие агенты учились на чужом опыте.

Ключевые идеи

  • 2:01 — нерешённая проблема, ради которой строится Memory — continuous self-learning и управление контекстом в долгих задачах
  • 3:14 — Memory вышел в public beta две недели назад, работает «из коробки» поверх Claude Agent SDK
  • 3:57Rakuten через память сократил повторение прошлых ошибок на 90%, плюс упала стоимость токенов и время ответа
  • 5:32 — память реализована как файловая система, агент управляет ей через Bash и grep — те же инструменты, в которых Claude уже силён
  • 5:53Claude Opus 4.7 заметно лучше решает, что класть в память, что стоит запомнить и как разбивать память на файлы
  • 7:14 — агент может иметь read-only доступ к одному хранилищу (организационные знания, best practices) и read-write — к другому (рабочая память задачи)
  • 7:47 — реализована concurrency-защита: при сотнях/тысячах одновременных агентов запись через verification (по сути optimistic locking) предотвращает потерю обновлений
  • 8:34audit log на каждое изменение: кто из агентов, в какой сессии и когда обновил память — основное требование от enterprise-клиентов
  • 9:00 — отдельный API, чтобы клиенты строили вокруг памяти свои системы: PII-фильтры, очистка, интеграция с внешними хранилищами
  • 11:20 — запускается сегодня в research preview: фоновый процесс, который сканирует свежие логи, ищет общие ошибки, успешные стратегии и реорганизует память
  • 11:45Harvey на собственном legal-бенчмарке получил 6× рост completion rate после Dreaming
  • 12:15 — Dreaming работает out-of-context, в фоне, не добавляя задержки в основной путь агента
  • 13:58 — Dreaming видит много сессий разных агентов одновременно и находит паттерны, которые отдельный агент не заметит из своего узкого контекста
  • 15:49 — Dreaming — третий способ тратить дополнительные вычисления заранее, после inference-time compute и предварительного построения search index
  • 22:28 — конкретный паттерн работы Dreaming: находит дубликаты, мерджит их в одну запись, удаляет устаревшие, добавляет verification note

Почему это важно

Anthropic явно заявляет смену единицы построения агентских систем: с одиночного агента к multi-agent институциональным контурам, где сотни или тысячи агентов параллельно работают над общей базой знаний. Без shared memory с аудитом, concurrency и фоновой реорганизацией такие системы накапливают мусор быстрее, чем приносят пользу — это и есть бутылочное горлышко. Победители — enterprise (Harvey, Rakuten), компании с длинными повторяющимися процессами (legal, ops, support), плюс сама Anthropic, которая через memory и Dreaming привязывает клиентов к платформе сильнее, чем через одни только API-вызовы. Проигрывают чистые RAG-вендоры: Anthropic фактически встраивает retrieval и knowledge curation прямо в платформу агента.

Идеи

  • Память агента — это не embedding store и не KV-cache, а обычная папка с markdown-файлами, которой агент управляет shell-командами
  • Skills концептуально приравниваются к operational memory — навыки и память лежат на одной оси
  • Anthropic сознательно ушёл от управления памятью внутри модели в сторону «дай агенту файловую систему и не мешай»
  • Версия Opus 4.7 натренирована именно на работу с файловой памятью — это model-level capability, не promptware
  • Двухуровневая модель доступа (read-only org-wide + read-write task-local) повторяет паттерн ролей в БД и Unix
  • Optimistic concurrency control для памяти — заимствование из CRDT/Git-мира; верификация состояния перед записью
  • Audit log включает сессию-источник — это позволяет ретроспективно отследить, какая сессия испортила знание
  • Anthropic не хочет монополизировать управление памятью — отсюда отдельный API для PII-фильтрации, очистки, экспорта
  • Dreaming — заимствование биологической метафоры консолидации сна для AI-систем
  • Discovery insight: Anthropic сначала пробовал делать память управляемой агентом внутри сессии, но агент не успевал реорганизовывать большое хранилище — отсюда вынос в отдельный процесс
  • Dreaming видит пересечения между разными агентами — общие ошибки замечаются именно на этом уровне, а не внутри одной сессии
  • Параллель с test-time compute: память — это shift вычислений с inference на background-этап
  • Параллель с search indexing: предварительная работа по структурированию ради дешёвого retrieval позже
  • Запуск Dreaming можно триггерить по событию завершения сессии — а не только по расписанию
  • Демо показало конкретный паттерн: два агента подряд проверяют один и тот же alert, второй благодаря памяти пропускает дублирующее расследование
  • В демо Dreaming сам нашёл паттерн «retry через 60 секунд после CPU spike неэффективен» — паттерн, не видимый ни одному отдельному агенту
  • В демо Dreaming сам удалил пять идентичных дубликатов и оставил один merged-record с verification note
  • Anthropic явно рассчитывает на масштаб «hundreds or thousands of agents в одном пространстве» — это плановый дизайн, не побочный
  • Memory + Dreaming = мост от sessional memory к корпоративной knowledge base
  • Pre-condition в API для записи (optimistic check) выглядит как заимствование If-Match из HTTP
  • Cost-снижение у Rakuten объясняется не только меньшим количеством шагов, но и тем, что shorter prompts при наличии готовой памяти

Инсайты

  • Когда shared state у агентов становится first-class объектом, побеждает архитектура «файлы + shell», а не «векторная база + ORM» — потому что инструменты shell-уровня уже отлажены и интерпретируемы
  • Continuous learning в production-агентах решается не через online RL весов, а через файловую память + фоновую консолидацию — это инженерный обход обучения
  • Архитектура multi-agent систем неизбежно приходит к разделению runtime-памяти и фоновой консолидации, как биологический мозг разделяет бодрствование и сон
  • Самое ценное знание в multi-agent системе — это паттерны, видимые только cross-session: отдельный агент структурно не способен их обнаружить
  • Audit log + concurrency control превращают память агента из эксперимента в enterprise-инфраструктуру — без них любой self-improving агент остаётся игрушкой
  • Anthropic смещает competitive moat с «качества модели» на stickiness институциональной памяти: переход к другому провайдеру означает потерю накопленного knowledge corpus
  • Pattern «спецификация на уровне модели + минимальные tools» (как в skills и теперь в memory) — это новый дизайн-принцип Anthropic: меньше harness-кода, больше capability в весах
  • Разделение целей memory quality и task completion между разными процессами — это применение принципа single responsibility к агентским системам
  • Любая система с self-improving memory требует механизма забывания/устаревания — иначе деградирует под весом устаревшего знания; Dreaming решает это явным шагом удаления

Цитаты

«continuous self-learning and the management of the context in long-term tasks» — 2:01 Непрерывное самообучение и управление контекстом в долгосрочных задачах

«Therefore, the main element is the following memory» — 2:08 Поэтому следующая ключевая часть — это память

«self-management memory will be of great importance» — 2:55 Самоуправляемая память будет иметь огромное значение

«the memory is backed by a system of files called LAMCLOUD» — 5:32 Память реализована поверх файловой системы, которую мы называем CLAUDE.md

«all this is done using only Bash and GP tools» — 6:18 И всё это делается только инструментами Bash и grep

«reduce their previous mistakes in internal knowledge employees by 90%» — 3:57 Снизили повторение прошлых ошибок во внутренних агентах на 90%

«one of the customers can use the content folder to verify what will be written» — 7:58 Один клиент может через состояние папки сверить то, что будет записано, прежде чем апдейтить

«full record of verification every time a memory update is made» — 8:34 Полный аудит-лог на каждое обновление памяти

«We call this operation Dreaming» — 11:20 Мы называем этот процесс Dreaming

«six times in the number of tasks for one of its legal scenarios» — 11:50 Шестикратный рост числа выполненных задач на одном из юридических сценариев

«Dreaming is out of the context» Dreaming работает вне контекста сессии

«not a single member can notice or learn from his limited perspective» — 13:58 Ни один отдельный агент не способен это заметить из своей ограниченной перспективы

«using computing and additional efforts to maintain the organization of these memory systems» — 15:49 Через дополнительные вычисления, чтобы поддерживать организованность памяти

«Dreaming is a bridge between the medium memory systems and the wide range of knowledge» — 17:31 Dreaming — это мост от sessional-памяти к широкой корпоративной базе знаний

«we see a immediate increase in the efficiency of symbols and a increase in intelligence» — 19:38 Мы сразу видим рост токен-эффективности и рост интеллектуальности агента

Факты

  • Memory API запущен в public beta за две недели до выступления (≈ начало мая 2026)
  • CLAUDE.md был запущен впервые около полутора лет назад как ранняя ограниченная версия памяти
  • Skills запущены в октябре (2025) — дают агентам способ приобретать новые навыки
  • Claude Opus 4.7 имеет улучшенные способности по управлению файловой памятью на уровне обучения
  • Rakuten сократил повторение прошлых ошибок внутреннего агента на 90%
  • Harvey на собственном legal-бенчмарке получил 6× рост completion rate с применением Dreaming
  • Демо: агент решил, что повторный retry через 60 секунд после CPU spike неэффективен — паттерн найден Dreaming
  • Демо: Dreaming нашёл 5 идентичных записей в памяти и объединил их в одну
  • Dreaming запускается в research preview сегодня (день презентации)
  • Запускать Dreaming можно периодически через console, через API, либо событийно по завершении сессии агента
  • Anthropic ожидает выпуск более широкой knowledge-base функциональности в ближайшие месяцы
  • В демо показаны два типа хранилищ на агента: org-level read-only и market-level read-write
  • Audit log фиксирует агента, сессию и время изменения с полной точностью
  • Реализован optimistic concurrency check перед записью в память

Источники

  • MCP (Model Context Protocol) — для доступа агента к внешним инструментам и данным
  • Claude Code — упомянут как один из мощных запущенных инструментов
  • Claude Agent SDK — фундамент, поверх которого работает Memory
  • CLAUDE.md — оригинальная ранняя форма памяти
  • Skills — операционная память агентов
  • Claude Opus 4.7 — модель с улучшенной поддержкой файловой памяти
  • Rakuten — кейс снижения ошибок на 90%
  • Harvey — кейс 6× прироста на legal-бенчмарке
  • Anthropic Console — UI для управления хранилищами и запуска Dreaming

Итог

Anthropic превращает память агентов в полноценную инфраструктурную примитиву — файлы под управлением shell-инструментов плюс фоновый процесс Dreaming, который ночью разгребает то, что днём натворили сотни параллельных агентов.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Claude»

Все видео