Как сделать Claude Code своей AI-инженерной командой

Y Combinator23 апреля 2026198 5805 33411 мин чтения2 июня, 06:36

Программирование Агенты Искусственный Интеллект Автоматизация

Коротко

Спикер — основатель и партнёр YC (автор первой версии Bookface и стартапа Poster/Posteras) — утверждает, что разработка ПО вошла в «эпоху агентов», и за два месяца он написал кодом больше, чем команда инженеров за годы. Его подход воплощён в открытом инструменте GStack («тонкий harness, толстые skills»): набор из ~28 команд-скиллов, которые превращают агента в профессиональную инженерную команду с ролями, процессом и ревью. Центральный скилл OfficeHour имитирует менторскую сессию YC — задаёт 6 обязательных вопросов и пытает идею стартапа, прежде чем писать код. Дальше идут планирование, мульти-стадийное «враждебное» (adversarial) ревью на Opus 4.6, визуальный design shotgun (3 варианта дизайна через Codex), реализация и автоматизированный QA через обёрнутый в CLI Playwright/Chromium. Бутылочное горлышко, по его словам, — не интеллект модели, а тонкость «harness»: при правильной настройке агент справляется, а GStack даёт ему процесс.

Главный тезис

Узкое место AI-разработки — не ум модели, а отсутствие процесса вокруг неё; правильно выстроенная «команда» из скиллов (роли + процесс + ревью) превращает одиночного агента в профессиональную инженерную фабрику.

Ключевые идеи

0:43 — разработка входит в эпоху агентов, и работать с агентами надо так же, как с командой: разделение ролей, процесс, ревью.
0:58 — GStack написан за 3 недели, репозиторий набрал десятки тысяч звёзд (упоминается «более 70 000»).
1:12 — за 2 месяца спикер написал кодом больше, чем целая инженерная команда раньше; Posteras, который строили 2 года с 10 инженерами, он пересобрал почти целиком примерно за $10 000.
2:01 — бутылочное горлышко — не интеллект модели, а тонкость harness; «нога очень тонкая».
2:15 — философия GStack: тонкий harness и толстые skills, агент как профессиональная команда поверх open-source репозитория.
2:31 — OfficeHour воспроизводит реальную менторскую сессию YC: 6 обязательных вопросов до начала стройки, чтобы пересобрать продуктовую рамку.
3:21 — скилл выжат из тысяч часов работы 16 партнёров YC, это «концентрат на 10% от того, что говорят в YC ежедневно».
5:30 — ключевой вопрос, решающий всё остальное: какое самое сильное доказательство, что это реально кому-то нужно.
6:49 — пример: сбор 1099 — это wedge-стратегия и lead-gen к составителю налоговой декларации; монетизация процента со сделки даёт «в 10+ раз больше», чем подписка $2–5.
13:02 — Opus 4.6 прогоняет мульти-стадийное adversarial-ревью дизайн-документа, автоматически находит и чинит проблемы (в примере — 16 проблем, оценка выросла с 6/10 до 8/10).
13:44 — design shotgun / design check: визуальный брейншторм, генерирующий 3 версии UI (Command Center / Friendly / Split View) через Codex с генерацией изображений за ~60 сек.
16:18 — auto-plan прогоняет идею через ревью CEO, инженерии, дизайна и DevEx по дефолтным предпочтениям автора — «как сделал бы я».
18:57 — собственный QA-инструмент: Playwright, обёрнутый на уровне CLI + headless Chromium, чтобы агент реально кликал, вводил, делал скриншоты — замена медленному и прожорливому Chrome MCP.
19:36 — рабочий метод: 10–15 параллельных сессий одновременно, до 50 PR в день, через Conductor с work-tree на каждую задачу.
20:13 — главный страх AI-кодинга сейчас — supply chain атаки; ~400 PR на ревью в open-source проектах оцениваются «волнами».

Почему это важно

Это маркетинговая демонстрация нового слоя инструментов поверх агентов-кодеров (Claude Code / cloud code, Codex, Conductor): ценность смещается от самой модели к процессному обвесу — скиллам, ролям и автоматическому ревью. Выигрывают платформы агентов (Anthropic с Opus, OpenAI с Codex) и авторы harness-фреймворков вроде GStack, аккумулирующие экспертизу (здесь — 16 партнёров YC и методологию OfficeHour) в переиспользуемый код. Проигрывают традиционные инженерные команды и точечные SaaS (TurboTax, плагины импорта 1099), чьи функции wedge-стартап обходит браузерной автоматизацией. Подтекст: YC экспортирует свою менторскую IP в виде open-source, расширяя воронку основателей, способных строить продукт в одиночку.

Идеи

Скилл OfficeHour — это «продукт» из менторской методологии: экспертиза превращается в исполняемый код.
Первый вопрос, заданный модели, определяет траекторию всего проекта — не «как», а «есть ли доказательство спроса».
Сбор документов 1099 ценен не сам по себе, а как клин (wedge) к более дорогой услуге — составлению деклараций.
Монетизация через процент с финальной сделки бьёт подписку $2–5 примерно в 10 раз.
Браузерная автоматизация позволяет полностью пропустить Google OAuth: пользователь сам открывает Gmail, агент ищет 1099 внутри уже открытой сессии.
Нет хранения паролей/токенов — аутентификация остаётся в живом браузере пользователя, что снимает часть приватностных рисков.
«Galley mode» в Conductor показывает рассуждения модели в реальном времени — наблюдаемость как фича.
adversarial-ревью прогоняется в несколько проходов: документ проходит «2-е враждебное ревью» и получает числовую оценку.
Оставшиеся 3 проблемы из ревью сознательно откладываются «на потом» — не всё чинится сразу.
Design shotgun генерирует несколько вариантов UI и заставляет человека просто выбрать — выбор дешевле создания.
Вариант для «Linux-хакеров» (A) проигрывает дружелюбному варианту (B) для обычных людей — UX-калибровка по аудитории.
Можно прыгать сразу к design shotgun, минуя plan/CEO-ревью — процесс не линейный, а набор инструментов.
auto-plan кодирует личные дефолты автора, чтобы не повторять одни и те же решения вручную каждый раз.
QA назван «самой неприятной частью разработки» — поэтому автоматизирован в первую очередь.
Chrome MCP описан как «один из худших софтов» — медленный, прожорливый по контексту, часто ничего не делает.
Собственный CLI-Playwright оказался достаточно мощным, чтобы агент делал полноценный e2e: клики, ввод, скриншоты, скачивание медиа.
Уровень «software factory level 8» — недостижимый идеал; GStack целится в level 7.
Параллелизм: несколько окон Conductor на разных проектах + 3–4 агента на одном проекте через параллельные ветки и PR.
400 PR на ревью оцениваются «как волна» — пакетная обработка вклада сообщества.
Plus-иконка в Conductor создаёт новый work-tree = новая единица работы; «список дел больше не нужен».
Идея, которую «3 месяца назад никто бы не попробовал», теперь реализуема за вечер — порог эксперимента упал.
Сам автор по ходу демо загорается построить tax-app «для себя, ради фана» — инструмент провоцирует спонтанные проекты.
В ~1 из 3 OfficeHour-сессий вывод — «идея не имеет смысла»; фильтрация бессмысленных идей и есть ценность.
Стена разработки рухнула — остался только вопрос «что строить», а не «как».

Инсайты

Ценность в AI-разработке мигрирует с модели на процессный слой: кто владеет методологией-обвесом, владеет результатом.
Экспертизу можно компилировать в исполняемый артефакт — менторство, ревью, вкус становятся переиспользуемым кодом, а не разовой консультацией.
Узкое место систем с LLM почти всегда не в «уме», а в строительных лесах вокруг: интерфейсах, инструментах, циклах проверки.
Adversarial-ревью с числовой оценкой превращает субъективное качество в управляемую, итеративную метрику.
Генерация дешевле выбора: правильный паттерн — модель производит N вариантов, человек тратит дорогой ресурс внимания только на отбор.
Наблюдаемость рассуждений модели (galley mode) — не украшение, а условие доверия и контроля при делегировании.
Архитектура «тонкий harness / толстые skills» переносит сложность из жёсткого каркаса в сменные модули — система масштабируется добавлением навыков, а не переписыванием ядра.
Wedge-логика стартапов универсальна и для AI-продуктов: входи через узкую боль, монетизируй смежную дорогую транзакцию.
Браузер как «runtime аутентификации» обходит интеграционный ад API/OAuth, перекладывая доверие на уже-залогиненную сессию пользователя.
Параллелизм агентов смещает дефицит с «написать код» на «отревьюить и смёржить» — новое горлышко человеческое, а не машинное.
Падение стоимости эксперимента меняет экономику идей: проверять гипотезы дешевле, чем обсуждать, поэтому фильтр-механизм (OfficeHour) важнее генерации.
Автоматизация должна начинаться с самой неприятной задачи, а не с самой видимой — QA, а не написание фич.

Фреймворки

Sprint-процесс GStack (роли как пайплайн): OfficeHour (валидация идеи, 6 обязательных вопросов) → Plan / auto-plan → ревью CEO → инженерное ревью → дизайн-ревью → DevEx-ревью → adversarial-ревью (мульти-стадийное, с оценкой N/10) → реализация → автоматический QA (Playwright CLI). Каждая задача = новый work-tree.
Уровни «software factory» (0→8): иерархия автоматизации разработки; GStack заявлен как достижимый level 7, level 8 — недостижимый идеал. Level 7 = параллельные окна Conductor на разных проектах + 3–4 агента на одном проекте с параллельными ветками/PR и почти одновременным мёржем.
Design shotgun: генерация 3 направлений UI одновременно (напр. Command Center / Friendly Progress / Split View) → оценка человеком по баллам → лок выбранного варианта или рестарт с фидбеком.

Цитаты

«software development is entering a completely new age, the age of agents» — 0:43 разработка ПО входит в совершенно новую эпоху — эпоху агентов

«The bottleneck here is not the intelligence of the model» — 2:01 Бутылочное горлышко здесь — не интеллект модели

«Gustack is an approach that uses a thin harness and thick skills» — 2:15 GStack — это подход с тонким harness и толстыми skills

«What is the most powerful evidence that someone is actually wanting this?» — 5:30 Какое самое сильное доказательство, что это реально кто-то хочет?

«this is a classic wedge strategy» — 6:49 это классическая wedge-стратегия

«Currently, Opus 4.6 is doing a multi-stage, hostile review» — 13:02 Сейчас Opus 4.6 делает мульти-стадийное враждебное ревью

«we automatically detected and corrected 16 problems» — 13:27 мы автоматически обнаружили и исправили 16 проблем

«Design check is my visual brainstorming tool» — 14:13 Design check — мой инструмент визуального брейншторма

«Chrome MCP Cloud was one of the worst softwares I've ever used» — 18:28 Chrome MCP был одним из худших софтов, что я использовал

«Basically, I wrapped the play light at CLI level» — 18:57 По сути, я обернул Playwright на уровне CLI

«I run 10 to 15 parallel code sessions simultaneously» — 19:36 Я гоняю 10–15 параллельных кодовых сессий одновременно

«One of the really scary things about AI coding right now is the supply chain attack» — 20:13 Одна из по-настоящему пугающих вещей в AI-кодинге сейчас — supply chain атака

«So you don't need a to-do list anymore» — 20:23 Список дел тебе больше не нужен

«Now is the most wonderful era in the history of software development» — 21:27 Сейчас — самая прекрасная эпоха в истории разработки ПО

«The wall of development has collapsed. The only question left is what to make» — 21:31 Стена разработки рухнула. Остался единственный вопрос — что строить

«Let's make what people want» — 21:39 Давайте делать то, что нужно людям

12:24 Самое интересное в нынешнюю эпоху — то, что ты придумываешь идею и можешь продвинуть её дальше, чем воображал

12:32 Честно говоря, примерно в 1 из 3 случаев в конце оказывается, что идея не имеет смысла

Факты

Спикер — партнёр YC, построил первую версию Bookface (соцсеть и база знаний YC) и микроблог-платформу/стартап Poster/Posteras.
Posteras ранее строился ~2 года командой из ~10 инженеров и сооснователей; пересборка через агентов обошлась примерно в $10 000.
GStack написан примерно за 3 недели; репозиторий — github.com/...gritan/gstack (название в SRT искажено), счёт звёзд назван «более 70 000».
OfficeHour опирается на опыт 16 партнёров YC и стартует с 6 обязательных вопросов.
Демо-кейс — налоговое приложение для поиска и скачивания форм 1099 из Gmail и банковских порталов (день подачи налогов).
Adversarial-ревью на Opus 4.6 автоматически нашло и исправило 16 проблем, подняв оценку дизайн-документа с 6/10 до 8/10, оставив 3 проблемы на потом; у спикера «5+ счетов», с которых приходят 1099.
Design shotgun генерирует 3 варианта UI примерно за 60 секунд через OpenAI Codex с генерацией изображений; варианты — Command Center, Friendly Progress, Split/Divide View.
В GStack «28 типов команд» (скиллов); упомянуты OfficeHour, CEO review, auto-plan, design check/shotgun, QA-браузер.
QA-инструмент построен на Playwright + headless Chromium, обёрнутых в CLI; Chrome MCP до того тратил 2–3 секунды на действие и «раздувал контекст».
Рабочий режим: 10–15 параллельных сессий, до 50 PR в день, около 400 PR на ревью в open-source проектах с «десятками тысяч звёзд».
Цель — «software factory level 8»; GStack достигает заявленного level 7.
Толчком в январе послужило то, что Andrej Karpathy и Boris Cherny (имена в SRT искажены) перестали писать код вручную — после чего спикер начал использовать Claude Code.
Конкуренты в кейсе 1099: TurboTax и H&R Block (функции импорта 1099), Plaid (подключение к банкам); инструмент-оркестратор — Conductor.

Источники

GStack — open-source репозиторий скиллов для агентной разработки (github.com/.../gstack)
Conductor — инструмент для запуска/оркестрации параллельных агентных сессий
Claude Code / cloud code, Opus 4.6 (Anthropic) — модель для ревью и кодинга
OpenAI Codex — генерация дизайн-вариантов с изображениями
Playwright + Chromium CLI — основа QA-инструмента; Chrome MCP — отвергнутая альтернатива
Bookface, Poster/Posteras — прошлые проекты спикера
TurboTax, H&R Block, Plaid — упомянутые продукты в кейсе 1099
Andrej Karpathy, Boris Cherny — упомянуты как переставшие писать код вручную
Y Combinator (YC) — источник методологии OfficeHour

Рекомендации

Попробовать GStack прямо сейчас (github.com/.../gstack) и прислать автору обратную связь.
Начинать работу с GStack через Conductor и Quick Start.
Перед написанием кода прогонять идею через OfficeHour, отвечая на 6 вопросов честно.
Брать инициативу и строить то, что нужно людям — «теперь единственный вопрос: что делать».

Итог

Эра агентов сместила дефицит с написания кода на процесс вокруг него — и тот, кто закодирует команду, роли и ревью в переиспользуемые skills, превращает одного агента в инженерную фабрику; стена рухнула, остался лишь вопрос «что строить».

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Y Combinator»

Все видео

Андрей Карпатый: софт снова меняется

Андрей Карпатый: софт снова меняется

Конкуренция — удел неудачников. Питер Тиль (How to Start a Startup 2014: 5)

Конкуренция — удел неудачников. Питер Тиль (How to Start a Startup 2014: 5)

Создатель OpenClaw: почему 80% приложений исчезнут

Создатель OpenClaw: почему 80% приложений исчезнут