Коротко
Никлас Густавссон из Spotify рассказывает, как компания перевела разработку на фоновых агентов поверх Claude Agent SDK: 73% всех PR теперь пишет ИИ. Кодовая база Spotify (20+ млн строк, монорепо плюс тысячи полирепо) пять-шесть лет назад росла в семь раз быстрее найма инженеров, из этой боли вырос инструмент Honk для fleet-миграций. Он прошёл путь от детерминированных AST-скриптов через LLM-with-judge к чистому агенту, где судья уже не нужен. Главная ставка не на модель, а на верификацию и тесты: раз PR мёржатся без человека в цикле, автотесты становятся единственной страховкой. Standardization кода даёт агентам тот же выигрыш, что раньше давал людям: чем однообразнее репозиторий, тем меньше Claude путается. Никлас перестал бояться, что потеряет удовольствие от кодинга, кайф оказался в решении задач, а не в ручном наборе.
Главный тезис
ИИ не отменяет старые инженерные практики: тесты, верификацию, стандартизацию. Он делает их критичнее прежнего, потому что теперь в кодовой базе появился новый актор, который мёржит изменения без человека, и фундамент должен держать эту нагрузку.
Ключевые идеи
- 0:29, прогноз «к концу года никто не будет пользоваться IDE» сбылся за два месяца вместо ожидаемых двух лет, способ работы изменился так, как автор не видел за 30 лет.
- 2:29, перелом наступил на Opus 4/5 (ноябрь-декабрь): модель из «умного автокомплита» стала тем, чему можно кидать реальные задачи почти без промпт-инжиниринга.
- 2:45, главный сдвиг: отпала нужда доводить последние 20-30% кода руками в IDE, весь цикл ушёл в терминал.
- 3:31, рабочий сетап: tmux, 5-10 вкладок, матрица агентов в work trees с параллельными терминалами под диффы.
- 4:34, вопреки страхам про индексацию, Claude отлично тянет монорепо на 20+ млн строк.
- 4:46, сила Claude в том, что он берёт вдохновение из соседнего кода репозитория, а не решает задачу в вакууме.
- 5:27, база росла в семь раз быстрее найма, обслуживание грозило похоронить поток новых фич.
- 6:30, идея fleet management: не рассылать сотням команд инструкцию по миграции, а делать мутации по всей кодовой базе разом.
- 7:15, детерминированные скрипты упёрлись в потолок: у кода огромная API-поверхность, каждый скрипт разбухал в тысячи строк на edge-кейсы.
- 7:43, даже замена метода ломает статический анализ, как только API зовут пятью разными способами и нужен трекинг переменных.
- 10:21, LLM-as-judge поднял успешность PR с 20-30% до 80%, но с ростом моделей судью убрали за ненадобностью.
- 12:19, верификация, это главное в closed-loop разработке, типичная ошибка компаний, недоинвестировать в неё.
- 13:25, раз PR мёржатся без ревью команды, пришлось радикально усилить автотесты, иначе софт не переживёт автоправки.
- 17:02, рост частоты PR 75%+, около 73% PR сейчас авторства ИИ; следующий рубеж, привязать это к выручке и user value.
- 20:22, совет CTO: стандартизация кода и инструментов, задуманная ради людей, так же хорошо переносится на агентов.
Почему это важно
Spotify, один из немногих публичных кейсов, где агентная разработка работает не на игрушечном репозитории, а на 20+ млн строк, 2900 инженерах и 4500 деплоях в день. Выигрывает Anthropic: Honk построен на Claude Agent SDK, и эта история показывает, как большой энтерпрайз строит поверх него внутреннюю платформу вместо покупки стороннего продукта. Проигрывают вендоры code-инструментов с индексацией, которых Claude обходит чтением соседнего кода, и команды, экономившие на тестах: их модель ломается ровно там, где человек уходит из цикла. Для остального рынка сигнал прост: узкое место сместилось с написания кода на верификацию и однообразие базы.
Идеи
- Внутреннее ощущение революции в компании и снаружи было идентичным, разница только в паре недель форы.
- Никлас пришёл в код из молекулярной биологии: геномное секвенирование дало «big data» ещё до термина, годичный саботикал растянулся на 30 лет.
- Ранние попытки автоматизировать миграции LLM проваливались вдвойне: и модели были слабы, и подход наивен, код клали перед моделью и ждали one-shot.
- Honk сегодня называют V2, хотя реально это V8, итерации просто перестали считать.
- Honk перерос миграции: инженеры начали дёргать его из Slack под произвольные задачи, он стал повсеместным инструментом.
- Архитектурно Honk прост: Agent SDK в поде Kubernetes с набором инструментов.
- До V2 инструменты были allow-list, которому доверяли; в V2 пользователи подключают любые внутренние тулы.
- Ключевой инструмент агента, запуск верификации, то есть настоящих CI-сборок, причём и на Linux, и на macOS.
- macOS-сборки критичны из-за iOS: без них не собрать мобильную разработку.
- Связка симулятора и Claude гонит путь от макета в Figma до готовой UI-реализации.
- Так портировали TV-приложения из iOS-кодовой базы.
- 4500 продакшн-деплоев в день, огромная поверхность для поломок, отсюда одержимость надёжностью.
- Путь от идеи до продакшна ужали с недель-месяцев до примерно часа.
- «Скорость против качества», ложная дихотомия: чтобы ускоряться, надо кодировать качество в скиллы и CLAUDE.md, а не держать в чьей-то голове.
- Продуктивность в инженерии всегда про инвестиции в инфраструктуру, а не про переработки.
- ROI поначалу считать было легко из-за огромной дельты, но с ростом зрелости и падением затрат требования к точности оценок выросли.
- Раньше выигрышем в dev-productivity был один процент, если его вообще удавалось измерить; теперь дельты в десятки-сотни процентов очевидны всем.
- Хотят построить цепочку атрибуции: PR → work item → A/B-тест → user value.
- Никлас в свободное время занимается competitive programming ради ментального упражнения, и боялся потерять этот кайф.
- Оказалось, ему важно решать задачи, а способ решения не был критичной частью.
- Теперь он заходит в незнакомые кодовые базы, которые раньше требовали дней-недель, и сразу контрибьютит.
- Освободившееся от имплементации время ушло на «что дальше», разговоры с клиентами и прототипирование.
- Prototyping-платформа даёт любому, включая не-инженеров, выразить идею на естественном языке и получить сборку.
- У Spotify есть внутренний app store прототипов: можно шарить свой и щупать чужой прямо в приложении.
- Прототипы в этом сторе есть у всех вплоть до одного из со-CEO, часть из них реально хорошие.
- Сеньор-руководители собирают идеи, которые давно висели в голове, но их инженерная команда занята другим.
- Тест идеи ужался с недель-месяцев до дня, причём на реальных данных живых пользователей.
- Инженеры Spotify отправляют PR из метро.
- Судью убрали не потому что он был плох, а потому что модель и agent harness догнали и переросли его.
Инсайты
- Скорость адаптации к сдвигу измеряется не годами, а месяцами: интуиция экспертов систематически переоценивает временные горизонты.
- Узкое место агентной разработки не генерация кода, а его проверка: когда человек уходит из цикла, вся нагрузка ложится на автоматизированную верификацию.
- Детерминированный статический анализ проигрывает LLM ровно там, где растёт комбинаторика краевых случаев, гибкость модели бьёт исчерпывающие правила.
- Однообразие кодовой базы, это форма обучающего сигнала для агента: консистентность снижает энтропию контекста и повышает попадание.
- Инвестиции в качество ради людей переносятся на агентов почти без потерь, потому что и те и другие читают один и тот же код и тесты.
- Компромисс «скорость vs надёжность» распадается, если качество вынесено из голов в исполнимые артефакты.
- По мере удешевления и созревания технологии планка требований к измеримости ROI растёт, а не падает: очевидность выигрыша не отменяет нужду в атрибуции.
- Ценность инженера смещается от того, как он решает задачу, к тому, какие задачи он способен взять.
- Снижение стоимости прототипа до одного дня меняет не темп, а состав участников: идею проверяет носитель идеи, а не бэклог инженерной команды.
- Барьер входа в незнакомый код обрушился, и это перераспределяет, кто вообще может контрибьютить.
- Фундаментальные практики не устаревают со сменой технологии: меняется их форма, но не необходимость.
Цитаты
«It changed that I had not seen in the 30 years that I've been doing this type of work», 0:38 Изменилось так, как я не видел за 30 лет этой работы
«It went from being this smart autocomplete to something that I could actually throw real problems at», 2:35 Из умного автокомплита это стало тем, чему можно кидать реальные задачи
«I just stopped having to do that. And that was crazy», 3:00 Я просто перестал это делать. И это было безумие
«But it turns out Claude works amazingly well in those repositories», 4:42 Оказалось, Claude потрясающе работает в этих репозиториях
«code has an enormous API surface», 7:15 у кода огромная API-поверхность
«It's just the single most important thing», 12:19 Это просто самое важное
«You might no longer be in the loop for these changes», 13:22 Возможно, вы больше не будете в цикле этих изменений
«if you want to go faster, the thing that you need to do is you need to automate your quality practices», 14:02 хочешь быстрее, автоматизируй свои практики качества
«productivity is always about investing in infrastructure. It's not about working more hours», 14:20 продуктивность всегда про инвестиции в инфраструктуру, а не про переработки
«we make something like 4,500 production deployments every day», 15:05 мы делаем около 4500 продакшн-деплоев в день
«73-ish percent of PRs are directly attributed to being AI authored», 17:07 около 73% PR напрямую относятся к авторству ИИ
«if they look in 10 different ways, Claude is going to be more confused», 20:18 если код выглядит десятью разными способами, Claude только запутается
«There's a new actor being in your code base, but the fundamentals seems to apply equally well», 20:44 В твоей кодовой базе новый актор, но фундамент работает так же
«the way that I solve those problems turn out to not be the most critical piece for me», 22:07 способ решения задач оказался для меня не самой важной частью
«allows you to test out an idea in a day instead of weeks or months», 25:59 позволяет проверить идею за день вместо недель или месяцев
Факты
- Кодовая база Spotify: 20+ млн строк в основном монорепо, плюс тысячи мелких полирепо, к которым постепенно стягивают монорепо.
- В инженерной организации Spotify около 2900 инженеров.
- ~4500 продакшн-деплоев в день.
- Рост частоты PR благодаря ИИ-инструментам: 75%+; около 73% PR атрибутируются как ИИ-авторские.
- Judge в Honk поднимал успешность PR примерно с 20-30% до 80%, потом был удалён.
- Проблему роста кода/найма (~7×) идентифицировали пять-шесть лет назад.
- Раньше выполнялось около 10 крупных миграций в год, каждая тянулась многие месяцы; сотни команд делали одно и то же вручную по тысячам компонентов.
- Через fleet management смёржили миллионы детерминированных PR.
- Honk работает как Agent SDK в поде Kubernetes, умеет CI-сборки на Linux и macOS.
- Перелом в личном кодинге автор относит к Opus 4/5, ноябрь-декабрь.
- Путь идея → продакшн сокращён с недель-месяцев до ~часа.
- Прототипы в внутреннем app store есть вплоть до одного из со-CEO Spotify.
- Первые эксперименты с автоматизацией миграций шли ещё до Claude, в ранние дни GPT.
- Формальное образование Никласа, молекулярная биология, PhD; в индустрии около 30 лет.
- Связку iOS-симулятора и Claude использовали для порта TV-приложений и генерации UI из Figma.
Источники
- Honk, внутренняя платформа Spotify для fleet-миграций и агентных задач (сегодня выпущена «V2»).
- Fleet management, инфраструктура массовых мутаций кода по всей базе.
- Claude Agent SDK, Claude Code, модели Opus 4/5, Anthropic.
- Figma, макеты как вход для автогенерации UI.
- tmux, git work trees, Kubernetes, рабочий инструментарий.
- Внутренний app store прототипов Spotify.
Рекомендации
- CTO и VP инженерии: не игнорировать инвестиции в автотесты, верификацию и стандартизацию, старые практики в новом мире работают, меняется лишь форма.
- Инженерам: сместить фокус с того, как решаешь задачу, на то, какие задачи берёшь; просто попробовать инструменты и найти свой способ работы с ними.
Итог
Агенты не отменили инженерию, они подняли ставку на её фундамент: тесты, верификацию и однообразие кода, потому что теперь в репозитории работает актор, которому некому подстраховать руки.