Как Spotify запускает агентов на 20M+ строк кода с Niklas Gustavsson

Claude29 июня 2026109 7502 7169 мин чтениясегодня, 04:25

Коротко

Никлас Густавссон из Spotify рассказывает, как компания перевела разработку на фоновых агентов поверх Claude Agent SDK: 73% всех PR теперь пишет ИИ. Кодовая база Spotify (20+ млн строк, монорепо плюс тысячи полирепо) пять-шесть лет назад росла в семь раз быстрее найма инженеров, из этой боли вырос инструмент Honk для fleet-миграций. Он прошёл путь от детерминированных AST-скриптов через LLM-with-judge к чистому агенту, где судья уже не нужен. Главная ставка не на модель, а на верификацию и тесты: раз PR мёржатся без человека в цикле, автотесты становятся единственной страховкой. Standardization кода даёт агентам тот же выигрыш, что раньше давал людям: чем однообразнее репозиторий, тем меньше Claude путается. Никлас перестал бояться, что потеряет удовольствие от кодинга, кайф оказался в решении задач, а не в ручном наборе.

Главный тезис

ИИ не отменяет старые инженерные практики: тесты, верификацию, стандартизацию. Он делает их критичнее прежнего, потому что теперь в кодовой базе появился новый актор, который мёржит изменения без человека, и фундамент должен держать эту нагрузку.

Ключевые идеи

  • 0:29, прогноз «к концу года никто не будет пользоваться IDE» сбылся за два месяца вместо ожидаемых двух лет, способ работы изменился так, как автор не видел за 30 лет.
  • 2:29, перелом наступил на Opus 4/5 (ноябрь-декабрь): модель из «умного автокомплита» стала тем, чему можно кидать реальные задачи почти без промпт-инжиниринга.
  • 2:45, главный сдвиг: отпала нужда доводить последние 20-30% кода руками в IDE, весь цикл ушёл в терминал.
  • 3:31, рабочий сетап: tmux, 5-10 вкладок, матрица агентов в work trees с параллельными терминалами под диффы.
  • 4:34, вопреки страхам про индексацию, Claude отлично тянет монорепо на 20+ млн строк.
  • 4:46, сила Claude в том, что он берёт вдохновение из соседнего кода репозитория, а не решает задачу в вакууме.
  • 5:27, база росла в семь раз быстрее найма, обслуживание грозило похоронить поток новых фич.
  • 6:30, идея fleet management: не рассылать сотням команд инструкцию по миграции, а делать мутации по всей кодовой базе разом.
  • 7:15, детерминированные скрипты упёрлись в потолок: у кода огромная API-поверхность, каждый скрипт разбухал в тысячи строк на edge-кейсы.
  • 7:43, даже замена метода ломает статический анализ, как только API зовут пятью разными способами и нужен трекинг переменных.
  • 10:21, LLM-as-judge поднял успешность PR с 20-30% до 80%, но с ростом моделей судью убрали за ненадобностью.
  • 12:19, верификация, это главное в closed-loop разработке, типичная ошибка компаний, недоинвестировать в неё.
  • 13:25, раз PR мёржатся без ревью команды, пришлось радикально усилить автотесты, иначе софт не переживёт автоправки.
  • 17:02, рост частоты PR 75%+, около 73% PR сейчас авторства ИИ; следующий рубеж, привязать это к выручке и user value.
  • 20:22, совет CTO: стандартизация кода и инструментов, задуманная ради людей, так же хорошо переносится на агентов.

Почему это важно

Spotify, один из немногих публичных кейсов, где агентная разработка работает не на игрушечном репозитории, а на 20+ млн строк, 2900 инженерах и 4500 деплоях в день. Выигрывает Anthropic: Honk построен на Claude Agent SDK, и эта история показывает, как большой энтерпрайз строит поверх него внутреннюю платформу вместо покупки стороннего продукта. Проигрывают вендоры code-инструментов с индексацией, которых Claude обходит чтением соседнего кода, и команды, экономившие на тестах: их модель ломается ровно там, где человек уходит из цикла. Для остального рынка сигнал прост: узкое место сместилось с написания кода на верификацию и однообразие базы.

Идеи

  • Внутреннее ощущение революции в компании и снаружи было идентичным, разница только в паре недель форы.
  • Никлас пришёл в код из молекулярной биологии: геномное секвенирование дало «big data» ещё до термина, годичный саботикал растянулся на 30 лет.
  • Ранние попытки автоматизировать миграции LLM проваливались вдвойне: и модели были слабы, и подход наивен, код клали перед моделью и ждали one-shot.
  • Honk сегодня называют V2, хотя реально это V8, итерации просто перестали считать.
  • Honk перерос миграции: инженеры начали дёргать его из Slack под произвольные задачи, он стал повсеместным инструментом.
  • Архитектурно Honk прост: Agent SDK в поде Kubernetes с набором инструментов.
  • До V2 инструменты были allow-list, которому доверяли; в V2 пользователи подключают любые внутренние тулы.
  • Ключевой инструмент агента, запуск верификации, то есть настоящих CI-сборок, причём и на Linux, и на macOS.
  • macOS-сборки критичны из-за iOS: без них не собрать мобильную разработку.
  • Связка симулятора и Claude гонит путь от макета в Figma до готовой UI-реализации.
  • Так портировали TV-приложения из iOS-кодовой базы.
  • 4500 продакшн-деплоев в день, огромная поверхность для поломок, отсюда одержимость надёжностью.
  • Путь от идеи до продакшна ужали с недель-месяцев до примерно часа.
  • «Скорость против качества», ложная дихотомия: чтобы ускоряться, надо кодировать качество в скиллы и CLAUDE.md, а не держать в чьей-то голове.
  • Продуктивность в инженерии всегда про инвестиции в инфраструктуру, а не про переработки.
  • ROI поначалу считать было легко из-за огромной дельты, но с ростом зрелости и падением затрат требования к точности оценок выросли.
  • Раньше выигрышем в dev-productivity был один процент, если его вообще удавалось измерить; теперь дельты в десятки-сотни процентов очевидны всем.
  • Хотят построить цепочку атрибуции: PR → work item → A/B-тест → user value.
  • Никлас в свободное время занимается competitive programming ради ментального упражнения, и боялся потерять этот кайф.
  • Оказалось, ему важно решать задачи, а способ решения не был критичной частью.
  • Теперь он заходит в незнакомые кодовые базы, которые раньше требовали дней-недель, и сразу контрибьютит.
  • Освободившееся от имплементации время ушло на «что дальше», разговоры с клиентами и прототипирование.
  • Prototyping-платформа даёт любому, включая не-инженеров, выразить идею на естественном языке и получить сборку.
  • У Spotify есть внутренний app store прототипов: можно шарить свой и щупать чужой прямо в приложении.
  • Прототипы в этом сторе есть у всех вплоть до одного из со-CEO, часть из них реально хорошие.
  • Сеньор-руководители собирают идеи, которые давно висели в голове, но их инженерная команда занята другим.
  • Тест идеи ужался с недель-месяцев до дня, причём на реальных данных живых пользователей.
  • Инженеры Spotify отправляют PR из метро.
  • Судью убрали не потому что он был плох, а потому что модель и agent harness догнали и переросли его.

Инсайты

  • Скорость адаптации к сдвигу измеряется не годами, а месяцами: интуиция экспертов систематически переоценивает временные горизонты.
  • Узкое место агентной разработки не генерация кода, а его проверка: когда человек уходит из цикла, вся нагрузка ложится на автоматизированную верификацию.
  • Детерминированный статический анализ проигрывает LLM ровно там, где растёт комбинаторика краевых случаев, гибкость модели бьёт исчерпывающие правила.
  • Однообразие кодовой базы, это форма обучающего сигнала для агента: консистентность снижает энтропию контекста и повышает попадание.
  • Инвестиции в качество ради людей переносятся на агентов почти без потерь, потому что и те и другие читают один и тот же код и тесты.
  • Компромисс «скорость vs надёжность» распадается, если качество вынесено из голов в исполнимые артефакты.
  • По мере удешевления и созревания технологии планка требований к измеримости ROI растёт, а не падает: очевидность выигрыша не отменяет нужду в атрибуции.
  • Ценность инженера смещается от того, как он решает задачу, к тому, какие задачи он способен взять.
  • Снижение стоимости прототипа до одного дня меняет не темп, а состав участников: идею проверяет носитель идеи, а не бэклог инженерной команды.
  • Барьер входа в незнакомый код обрушился, и это перераспределяет, кто вообще может контрибьютить.
  • Фундаментальные практики не устаревают со сменой технологии: меняется их форма, но не необходимость.

Цитаты

«It changed that I had not seen in the 30 years that I've been doing this type of work», 0:38 Изменилось так, как я не видел за 30 лет этой работы

«It went from being this smart autocomplete to something that I could actually throw real problems at», 2:35 Из умного автокомплита это стало тем, чему можно кидать реальные задачи

«I just stopped having to do that. And that was crazy», 3:00 Я просто перестал это делать. И это было безумие

«But it turns out Claude works amazingly well in those repositories», 4:42 Оказалось, Claude потрясающе работает в этих репозиториях

«code has an enormous API surface», 7:15 у кода огромная API-поверхность

«It's just the single most important thing», 12:19 Это просто самое важное

«You might no longer be in the loop for these changes», 13:22 Возможно, вы больше не будете в цикле этих изменений

«if you want to go faster, the thing that you need to do is you need to automate your quality practices», 14:02 хочешь быстрее, автоматизируй свои практики качества

«productivity is always about investing in infrastructure. It's not about working more hours», 14:20 продуктивность всегда про инвестиции в инфраструктуру, а не про переработки

«we make something like 4,500 production deployments every day», 15:05 мы делаем около 4500 продакшн-деплоев в день

«73-ish percent of PRs are directly attributed to being AI authored», 17:07 около 73% PR напрямую относятся к авторству ИИ

«if they look in 10 different ways, Claude is going to be more confused», 20:18 если код выглядит десятью разными способами, Claude только запутается

«There's a new actor being in your code base, but the fundamentals seems to apply equally well», 20:44 В твоей кодовой базе новый актор, но фундамент работает так же

«the way that I solve those problems turn out to not be the most critical piece for me», 22:07 способ решения задач оказался для меня не самой важной частью

«allows you to test out an idea in a day instead of weeks or months», 25:59 позволяет проверить идею за день вместо недель или месяцев

Факты

  • Кодовая база Spotify: 20+ млн строк в основном монорепо, плюс тысячи мелких полирепо, к которым постепенно стягивают монорепо.
  • В инженерной организации Spotify около 2900 инженеров.
  • ~4500 продакшн-деплоев в день.
  • Рост частоты PR благодаря ИИ-инструментам: 75%+; около 73% PR атрибутируются как ИИ-авторские.
  • Judge в Honk поднимал успешность PR примерно с 20-30% до 80%, потом был удалён.
  • Проблему роста кода/найма (~7×) идентифицировали пять-шесть лет назад.
  • Раньше выполнялось около 10 крупных миграций в год, каждая тянулась многие месяцы; сотни команд делали одно и то же вручную по тысячам компонентов.
  • Через fleet management смёржили миллионы детерминированных PR.
  • Honk работает как Agent SDK в поде Kubernetes, умеет CI-сборки на Linux и macOS.
  • Перелом в личном кодинге автор относит к Opus 4/5, ноябрь-декабрь.
  • Путь идея → продакшн сокращён с недель-месяцев до ~часа.
  • Прототипы в внутреннем app store есть вплоть до одного из со-CEO Spotify.
  • Первые эксперименты с автоматизацией миграций шли ещё до Claude, в ранние дни GPT.
  • Формальное образование Никласа, молекулярная биология, PhD; в индустрии около 30 лет.
  • Связку iOS-симулятора и Claude использовали для порта TV-приложений и генерации UI из Figma.

Источники

  • Honk, внутренняя платформа Spotify для fleet-миграций и агентных задач (сегодня выпущена «V2»).
  • Fleet management, инфраструктура массовых мутаций кода по всей базе.
  • Claude Agent SDK, Claude Code, модели Opus 4/5, Anthropic.
  • Figma, макеты как вход для автогенерации UI.
  • tmux, git work trees, Kubernetes, рабочий инструментарий.
  • Внутренний app store прототипов Spotify.

Рекомендации

  • CTO и VP инженерии: не игнорировать инвестиции в автотесты, верификацию и стандартизацию, старые практики в новом мире работают, меняется лишь форма.
  • Инженерам: сместить фокус с того, как решаешь задачу, на то, какие задачи берёшь; просто попробовать инструменты и найти свой способ работы с ними.

Итог

Агенты не отменили инженерию, они подняли ставку на её фундамент: тесты, верификацию и однообразие кода, потому что теперь в репозитории работает актор, которому некому подстраховать руки.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Claude»

Все видео