Как Spotify запускает агентов на 20M+ строк кода с Niklas Gustavsson

Claude29 июня 2026109 7502 7169 мин чтениясегодня, 04:25

Программирование Искусственный Интеллект Автоматизация Бизнес

Коротко

Никлас Густавссон из Spotify рассказывает, как компания перевела разработку на фоновых агентов поверх Claude Agent SDK: 73% всех PR теперь пишет ИИ. Кодовая база Spotify (20+ млн строк, монорепо плюс тысячи полирепо) пять-шесть лет назад росла в семь раз быстрее найма инженеров, из этой боли вырос инструмент Honk для fleet-миграций. Он прошёл путь от детерминированных AST-скриптов через LLM-with-judge к чистому агенту, где судья уже не нужен. Главная ставка не на модель, а на верификацию и тесты: раз PR мёржатся без человека в цикле, автотесты становятся единственной страховкой. Standardization кода даёт агентам тот же выигрыш, что раньше давал людям: чем однообразнее репозиторий, тем меньше Claude путается. Никлас перестал бояться, что потеряет удовольствие от кодинга, кайф оказался в решении задач, а не в ручном наборе.

Главный тезис

ИИ не отменяет старые инженерные практики: тесты, верификацию, стандартизацию. Он делает их критичнее прежнего, потому что теперь в кодовой базе появился новый актор, который мёржит изменения без человека, и фундамент должен держать эту нагрузку.

Ключевые идеи

0:29, прогноз «к концу года никто не будет пользоваться IDE» сбылся за два месяца вместо ожидаемых двух лет, способ работы изменился так, как автор не видел за 30 лет.
2:29, перелом наступил на Opus 4/5 (ноябрь-декабрь): модель из «умного автокомплита» стала тем, чему можно кидать реальные задачи почти без промпт-инжиниринга.
2:45, главный сдвиг: отпала нужда доводить последние 20-30% кода руками в IDE, весь цикл ушёл в терминал.
3:31, рабочий сетап: tmux, 5-10 вкладок, матрица агентов в work trees с параллельными терминалами под диффы.
4:34, вопреки страхам про индексацию, Claude отлично тянет монорепо на 20+ млн строк.
4:46, сила Claude в том, что он берёт вдохновение из соседнего кода репозитория, а не решает задачу в вакууме.
5:27, база росла в семь раз быстрее найма, обслуживание грозило похоронить поток новых фич.
6:30, идея fleet management: не рассылать сотням команд инструкцию по миграции, а делать мутации по всей кодовой базе разом.
7:15, детерминированные скрипты упёрлись в потолок: у кода огромная API-поверхность, каждый скрипт разбухал в тысячи строк на edge-кейсы.
7:43, даже замена метода ломает статический анализ, как только API зовут пятью разными способами и нужен трекинг переменных.
10:21, LLM-as-judge поднял успешность PR с 20-30% до 80%, но с ростом моделей судью убрали за ненадобностью.
12:19, верификация, это главное в closed-loop разработке, типичная ошибка компаний, недоинвестировать в неё.
13:25, раз PR мёржатся без ревью команды, пришлось радикально усилить автотесты, иначе софт не переживёт автоправки.
17:02, рост частоты PR 75%+, около 73% PR сейчас авторства ИИ; следующий рубеж, привязать это к выручке и user value.
20:22, совет CTO: стандартизация кода и инструментов, задуманная ради людей, так же хорошо переносится на агентов.

Почему это важно

Spotify, один из немногих публичных кейсов, где агентная разработка работает не на игрушечном репозитории, а на 20+ млн строк, 2900 инженерах и 4500 деплоях в день. Выигрывает Anthropic: Honk построен на Claude Agent SDK, и эта история показывает, как большой энтерпрайз строит поверх него внутреннюю платформу вместо покупки стороннего продукта. Проигрывают вендоры code-инструментов с индексацией, которых Claude обходит чтением соседнего кода, и команды, экономившие на тестах: их модель ломается ровно там, где человек уходит из цикла. Для остального рынка сигнал прост: узкое место сместилось с написания кода на верификацию и однообразие базы.

Идеи

Внутреннее ощущение революции в компании и снаружи было идентичным, разница только в паре недель форы.
Никлас пришёл в код из молекулярной биологии: геномное секвенирование дало «big data» ещё до термина, годичный саботикал растянулся на 30 лет.
Ранние попытки автоматизировать миграции LLM проваливались вдвойне: и модели были слабы, и подход наивен, код клали перед моделью и ждали one-shot.
Honk сегодня называют V2, хотя реально это V8, итерации просто перестали считать.
Honk перерос миграции: инженеры начали дёргать его из Slack под произвольные задачи, он стал повсеместным инструментом.
Архитектурно Honk прост: Agent SDK в поде Kubernetes с набором инструментов.
До V2 инструменты были allow-list, которому доверяли; в V2 пользователи подключают любые внутренние тулы.
Ключевой инструмент агента, запуск верификации, то есть настоящих CI-сборок, причём и на Linux, и на macOS.
macOS-сборки критичны из-за iOS: без них не собрать мобильную разработку.
Связка симулятора и Claude гонит путь от макета в Figma до готовой UI-реализации.
Так портировали TV-приложения из iOS-кодовой базы.
4500 продакшн-деплоев в день, огромная поверхность для поломок, отсюда одержимость надёжностью.
Путь от идеи до продакшна ужали с недель-месяцев до примерно часа.
«Скорость против качества», ложная дихотомия: чтобы ускоряться, надо кодировать качество в скиллы и CLAUDE.md, а не держать в чьей-то голове.
Продуктивность в инженерии всегда про инвестиции в инфраструктуру, а не про переработки.
ROI поначалу считать было легко из-за огромной дельты, но с ростом зрелости и падением затрат требования к точности оценок выросли.
Раньше выигрышем в dev-productivity был один процент, если его вообще удавалось измерить; теперь дельты в десятки-сотни процентов очевидны всем.
Хотят построить цепочку атрибуции: PR → work item → A/B-тест → user value.
Никлас в свободное время занимается competitive programming ради ментального упражнения, и боялся потерять этот кайф.
Оказалось, ему важно решать задачи, а способ решения не был критичной частью.
Теперь он заходит в незнакомые кодовые базы, которые раньше требовали дней-недель, и сразу контрибьютит.
Освободившееся от имплементации время ушло на «что дальше», разговоры с клиентами и прототипирование.
Prototyping-платформа даёт любому, включая не-инженеров, выразить идею на естественном языке и получить сборку.
У Spotify есть внутренний app store прототипов: можно шарить свой и щупать чужой прямо в приложении.
Прототипы в этом сторе есть у всех вплоть до одного из со-CEO, часть из них реально хорошие.
Сеньор-руководители собирают идеи, которые давно висели в голове, но их инженерная команда занята другим.
Тест идеи ужался с недель-месяцев до дня, причём на реальных данных живых пользователей.
Инженеры Spotify отправляют PR из метро.
Судью убрали не потому что он был плох, а потому что модель и agent harness догнали и переросли его.

Инсайты

Скорость адаптации к сдвигу измеряется не годами, а месяцами: интуиция экспертов систематически переоценивает временные горизонты.
Узкое место агентной разработки не генерация кода, а его проверка: когда человек уходит из цикла, вся нагрузка ложится на автоматизированную верификацию.
Детерминированный статический анализ проигрывает LLM ровно там, где растёт комбинаторика краевых случаев, гибкость модели бьёт исчерпывающие правила.
Однообразие кодовой базы, это форма обучающего сигнала для агента: консистентность снижает энтропию контекста и повышает попадание.
Инвестиции в качество ради людей переносятся на агентов почти без потерь, потому что и те и другие читают один и тот же код и тесты.
Компромисс «скорость vs надёжность» распадается, если качество вынесено из голов в исполнимые артефакты.
По мере удешевления и созревания технологии планка требований к измеримости ROI растёт, а не падает: очевидность выигрыша не отменяет нужду в атрибуции.
Ценность инженера смещается от того, как он решает задачу, к тому, какие задачи он способен взять.
Снижение стоимости прототипа до одного дня меняет не темп, а состав участников: идею проверяет носитель идеи, а не бэклог инженерной команды.
Барьер входа в незнакомый код обрушился, и это перераспределяет, кто вообще может контрибьютить.
Фундаментальные практики не устаревают со сменой технологии: меняется их форма, но не необходимость.

Цитаты

«It changed that I had not seen in the 30 years that I've been doing this type of work», 0:38 Изменилось так, как я не видел за 30 лет этой работы

«It went from being this smart autocomplete to something that I could actually throw real problems at», 2:35 Из умного автокомплита это стало тем, чему можно кидать реальные задачи

«I just stopped having to do that. And that was crazy», 3:00 Я просто перестал это делать. И это было безумие

«But it turns out Claude works amazingly well in those repositories», 4:42 Оказалось, Claude потрясающе работает в этих репозиториях

«code has an enormous API surface», 7:15 у кода огромная API-поверхность

«It's just the single most important thing», 12:19 Это просто самое важное

«You might no longer be in the loop for these changes», 13:22 Возможно, вы больше не будете в цикле этих изменений

«if you want to go faster, the thing that you need to do is you need to automate your quality practices», 14:02 хочешь быстрее, автоматизируй свои практики качества

«productivity is always about investing in infrastructure. It's not about working more hours», 14:20 продуктивность всегда про инвестиции в инфраструктуру, а не про переработки

«we make something like 4,500 production deployments every day», 15:05 мы делаем около 4500 продакшн-деплоев в день

«73-ish percent of PRs are directly attributed to being AI authored», 17:07 около 73% PR напрямую относятся к авторству ИИ

«if they look in 10 different ways, Claude is going to be more confused», 20:18 если код выглядит десятью разными способами, Claude только запутается

«There's a new actor being in your code base, but the fundamentals seems to apply equally well», 20:44 В твоей кодовой базе новый актор, но фундамент работает так же

«the way that I solve those problems turn out to not be the most critical piece for me», 22:07 способ решения задач оказался для меня не самой важной частью

«allows you to test out an idea in a day instead of weeks or months», 25:59 позволяет проверить идею за день вместо недель или месяцев

Факты

Кодовая база Spotify: 20+ млн строк в основном монорепо, плюс тысячи мелких полирепо, к которым постепенно стягивают монорепо.
В инженерной организации Spotify около 2900 инженеров.
~4500 продакшн-деплоев в день.
Рост частоты PR благодаря ИИ-инструментам: 75%+; около 73% PR атрибутируются как ИИ-авторские.
Judge в Honk поднимал успешность PR примерно с 20-30% до 80%, потом был удалён.
Проблему роста кода/найма (~7×) идентифицировали пять-шесть лет назад.
Раньше выполнялось около 10 крупных миграций в год, каждая тянулась многие месяцы; сотни команд делали одно и то же вручную по тысячам компонентов.
Через fleet management смёржили миллионы детерминированных PR.
Honk работает как Agent SDK в поде Kubernetes, умеет CI-сборки на Linux и macOS.
Перелом в личном кодинге автор относит к Opus 4/5, ноябрь-декабрь.
Путь идея → продакшн сокращён с недель-месяцев до ~часа.
Прототипы в внутреннем app store есть вплоть до одного из со-CEO Spotify.
Первые эксперименты с автоматизацией миграций шли ещё до Claude, в ранние дни GPT.
Формальное образование Никласа, молекулярная биология, PhD; в индустрии около 30 лет.
Связку iOS-симулятора и Claude использовали для порта TV-приложений и генерации UI из Figma.

Источники

Honk, внутренняя платформа Spotify для fleet-миграций и агентных задач (сегодня выпущена «V2»).
Fleet management, инфраструктура массовых мутаций кода по всей базе.
Claude Agent SDK, Claude Code, модели Opus 4/5, Anthropic.
Figma, макеты как вход для автогенерации UI.
tmux, git work trees, Kubernetes, рабочий инструментарий.
Внутренний app store прототипов Spotify.

Рекомендации

CTO и VP инженерии: не игнорировать инвестиции в автотесты, верификацию и стандартизацию, старые практики в новом мире работают, меняется лишь форма.
Инженерам: сместить фокус с того, как решаешь задачу, на то, какие задачи берёшь; просто попробовать инструменты и найти свой способ работы с ними.

Итог

Агенты не отменили инженерию, они подняли ставку на её фундамент: тесты, верификацию и однообразие кода, потому что теперь в репозитории работает актор, которому некому подстраховать руки.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Claude»

Все видео

Программируй с Claude 2026: вступительный кейноут

Программируй с Claude 2026: вступительный кейноут

Создай проактивный workflow агента с Claude Code

Создай проактивный workflow агента с Claude Code

Running an AI-native engineering org

Running an AI-native engineering org