Как сделать Claude Code своей AI-инженерной командой

Y Combinator23 апреля 2026198 5805 33411 мин чтения2 июня, 06:36

Коротко

Спикер — основатель и партнёр YC (автор первой версии Bookface и стартапа Poster/Posteras) — утверждает, что разработка ПО вошла в «эпоху агентов», и за два месяца он написал кодом больше, чем команда инженеров за годы. Его подход воплощён в открытом инструменте GStack («тонкий harness, толстые skills»): набор из ~28 команд-скиллов, которые превращают агента в профессиональную инженерную команду с ролями, процессом и ревью. Центральный скилл OfficeHour имитирует менторскую сессию YC — задаёт 6 обязательных вопросов и пытает идею стартапа, прежде чем писать код. Дальше идут планирование, мульти-стадийное «враждебное» (adversarial) ревью на Opus 4.6, визуальный design shotgun (3 варианта дизайна через Codex), реализация и автоматизированный QA через обёрнутый в CLI Playwright/Chromium. Бутылочное горлышко, по его словам, — не интеллект модели, а тонкость «harness»: при правильной настройке агент справляется, а GStack даёт ему процесс.

Главный тезис

Узкое место AI-разработки — не ум модели, а отсутствие процесса вокруг неё; правильно выстроенная «команда» из скиллов (роли + процесс + ревью) превращает одиночного агента в профессиональную инженерную фабрику.

Ключевые идеи

  • 0:43 — разработка входит в эпоху агентов, и работать с агентами надо так же, как с командой: разделение ролей, процесс, ревью.
  • 0:58GStack написан за 3 недели, репозиторий набрал десятки тысяч звёзд (упоминается «более 70 000»).
  • 1:12 — за 2 месяца спикер написал кодом больше, чем целая инженерная команда раньше; Posteras, который строили 2 года с 10 инженерами, он пересобрал почти целиком примерно за $10 000.
  • 2:01бутылочное горлышко — не интеллект модели, а тонкость harness; «нога очень тонкая».
  • 2:15 — философия GStack: тонкий harness и толстые skills, агент как профессиональная команда поверх open-source репозитория.
  • 2:31OfficeHour воспроизводит реальную менторскую сессию YC: 6 обязательных вопросов до начала стройки, чтобы пересобрать продуктовую рамку.
  • 3:21 — скилл выжат из тысяч часов работы 16 партнёров YC, это «концентрат на 10% от того, что говорят в YC ежедневно».
  • 5:30 — ключевой вопрос, решающий всё остальное: какое самое сильное доказательство, что это реально кому-то нужно.
  • 6:49 — пример: сбор 1099 — это wedge-стратегия и lead-gen к составителю налоговой декларации; монетизация процента со сделки даёт «в 10+ раз больше», чем подписка $2–5.
  • 13:02Opus 4.6 прогоняет мульти-стадийное adversarial-ревью дизайн-документа, автоматически находит и чинит проблемы (в примере — 16 проблем, оценка выросла с 6/10 до 8/10).
  • 13:44design shotgun / design check: визуальный брейншторм, генерирующий 3 версии UI (Command Center / Friendly / Split View) через Codex с генерацией изображений за ~60 сек.
  • 16:18auto-plan прогоняет идею через ревью CEO, инженерии, дизайна и DevEx по дефолтным предпочтениям автора — «как сделал бы я».
  • 18:57 — собственный QA-инструмент: Playwright, обёрнутый на уровне CLI + headless Chromium, чтобы агент реально кликал, вводил, делал скриншоты — замена медленному и прожорливому Chrome MCP.
  • 19:36 — рабочий метод: 10–15 параллельных сессий одновременно, до 50 PR в день, через Conductor с work-tree на каждую задачу.
  • 20:13 — главный страх AI-кодинга сейчас — supply chain атаки; ~400 PR на ревью в open-source проектах оцениваются «волнами».

Почему это важно

Это маркетинговая демонстрация нового слоя инструментов поверх агентов-кодеров (Claude Code / cloud code, Codex, Conductor): ценность смещается от самой модели к процессному обвесу — скиллам, ролям и автоматическому ревью. Выигрывают платформы агентов (Anthropic с Opus, OpenAI с Codex) и авторы harness-фреймворков вроде GStack, аккумулирующие экспертизу (здесь — 16 партнёров YC и методологию OfficeHour) в переиспользуемый код. Проигрывают традиционные инженерные команды и точечные SaaS (TurboTax, плагины импорта 1099), чьи функции wedge-стартап обходит браузерной автоматизацией. Подтекст: YC экспортирует свою менторскую IP в виде open-source, расширяя воронку основателей, способных строить продукт в одиночку.

Идеи

  • Скилл OfficeHour — это «продукт» из менторской методологии: экспертиза превращается в исполняемый код.
  • Первый вопрос, заданный модели, определяет траекторию всего проекта — не «как», а «есть ли доказательство спроса».
  • Сбор документов 1099 ценен не сам по себе, а как клин (wedge) к более дорогой услуге — составлению деклараций.
  • Монетизация через процент с финальной сделки бьёт подписку $2–5 примерно в 10 раз.
  • Браузерная автоматизация позволяет полностью пропустить Google OAuth: пользователь сам открывает Gmail, агент ищет 1099 внутри уже открытой сессии.
  • Нет хранения паролей/токенов — аутентификация остаётся в живом браузере пользователя, что снимает часть приватностных рисков.
  • «Galley mode» в Conductor показывает рассуждения модели в реальном времени — наблюдаемость как фича.
  • adversarial-ревью прогоняется в несколько проходов: документ проходит «2-е враждебное ревью» и получает числовую оценку.
  • Оставшиеся 3 проблемы из ревью сознательно откладываются «на потом» — не всё чинится сразу.
  • Design shotgun генерирует несколько вариантов UI и заставляет человека просто выбрать — выбор дешевле создания.
  • Вариант для «Linux-хакеров» (A) проигрывает дружелюбному варианту (B) для обычных людей — UX-калибровка по аудитории.
  • Можно прыгать сразу к design shotgun, минуя plan/CEO-ревью — процесс не линейный, а набор инструментов.
  • auto-plan кодирует личные дефолты автора, чтобы не повторять одни и те же решения вручную каждый раз.
  • QA назван «самой неприятной частью разработки» — поэтому автоматизирован в первую очередь.
  • Chrome MCP описан как «один из худших софтов» — медленный, прожорливый по контексту, часто ничего не делает.
  • Собственный CLI-Playwright оказался достаточно мощным, чтобы агент делал полноценный e2e: клики, ввод, скриншоты, скачивание медиа.
  • Уровень «software factory level 8» — недостижимый идеал; GStack целится в level 7.
  • Параллелизм: несколько окон Conductor на разных проектах + 3–4 агента на одном проекте через параллельные ветки и PR.
  • 400 PR на ревью оцениваются «как волна» — пакетная обработка вклада сообщества.
  • Plus-иконка в Conductor создаёт новый work-tree = новая единица работы; «список дел больше не нужен».
  • Идея, которую «3 месяца назад никто бы не попробовал», теперь реализуема за вечер — порог эксперимента упал.
  • Сам автор по ходу демо загорается построить tax-app «для себя, ради фана» — инструмент провоцирует спонтанные проекты.
  • В ~1 из 3 OfficeHour-сессий вывод — «идея не имеет смысла»; фильтрация бессмысленных идей и есть ценность.
  • Стена разработки рухнула — остался только вопрос «что строить», а не «как».

Инсайты

  • Ценность в AI-разработке мигрирует с модели на процессный слой: кто владеет методологией-обвесом, владеет результатом.
  • Экспертизу можно компилировать в исполняемый артефакт — менторство, ревью, вкус становятся переиспользуемым кодом, а не разовой консультацией.
  • Узкое место систем с LLM почти всегда не в «уме», а в строительных лесах вокруг: интерфейсах, инструментах, циклах проверки.
  • Adversarial-ревью с числовой оценкой превращает субъективное качество в управляемую, итеративную метрику.
  • Генерация дешевле выбора: правильный паттерн — модель производит N вариантов, человек тратит дорогой ресурс внимания только на отбор.
  • Наблюдаемость рассуждений модели (galley mode) — не украшение, а условие доверия и контроля при делегировании.
  • Архитектура «тонкий harness / толстые skills» переносит сложность из жёсткого каркаса в сменные модули — система масштабируется добавлением навыков, а не переписыванием ядра.
  • Wedge-логика стартапов универсальна и для AI-продуктов: входи через узкую боль, монетизируй смежную дорогую транзакцию.
  • Браузер как «runtime аутентификации» обходит интеграционный ад API/OAuth, перекладывая доверие на уже-залогиненную сессию пользователя.
  • Параллелизм агентов смещает дефицит с «написать код» на «отревьюить и смёржить» — новое горлышко человеческое, а не машинное.
  • Падение стоимости эксперимента меняет экономику идей: проверять гипотезы дешевле, чем обсуждать, поэтому фильтр-механизм (OfficeHour) важнее генерации.
  • Автоматизация должна начинаться с самой неприятной задачи, а не с самой видимой — QA, а не написание фич.

Фреймворки

  • Sprint-процесс GStack (роли как пайплайн): OfficeHour (валидация идеи, 6 обязательных вопросов) → Plan / auto-plan → ревью CEO → инженерное ревью → дизайн-ревью → DevEx-ревью → adversarial-ревью (мульти-стадийное, с оценкой N/10) → реализация → автоматический QA (Playwright CLI). Каждая задача = новый work-tree.
  • Уровни «software factory» (0→8): иерархия автоматизации разработки; GStack заявлен как достижимый level 7, level 8 — недостижимый идеал. Level 7 = параллельные окна Conductor на разных проектах + 3–4 агента на одном проекте с параллельными ветками/PR и почти одновременным мёржем.
  • Design shotgun: генерация 3 направлений UI одновременно (напр. Command Center / Friendly Progress / Split View) → оценка человеком по баллам → лок выбранного варианта или рестарт с фидбеком.

Цитаты

«software development is entering a completely new age, the age of agents» — 0:43 разработка ПО входит в совершенно новую эпоху — эпоху агентов

«The bottleneck here is not the intelligence of the model» — 2:01 Бутылочное горлышко здесь — не интеллект модели

«Gustack is an approach that uses a thin harness and thick skills» — 2:15 GStack — это подход с тонким harness и толстыми skills

«What is the most powerful evidence that someone is actually wanting this?» — 5:30 Какое самое сильное доказательство, что это реально кто-то хочет?

«this is a classic wedge strategy» — 6:49 это классическая wedge-стратегия

«Currently, Opus 4.6 is doing a multi-stage, hostile review» — 13:02 Сейчас Opus 4.6 делает мульти-стадийное враждебное ревью

«we automatically detected and corrected 16 problems» — 13:27 мы автоматически обнаружили и исправили 16 проблем

«Design check is my visual brainstorming tool» — 14:13 Design check — мой инструмент визуального брейншторма

«Chrome MCP Cloud was one of the worst softwares I've ever used» — 18:28 Chrome MCP был одним из худших софтов, что я использовал

«Basically, I wrapped the play light at CLI level» — 18:57 По сути, я обернул Playwright на уровне CLI

«I run 10 to 15 parallel code sessions simultaneously» — 19:36 Я гоняю 10–15 параллельных кодовых сессий одновременно

«One of the really scary things about AI coding right now is the supply chain attack» — 20:13 Одна из по-настоящему пугающих вещей в AI-кодинге сейчас — supply chain атака

«So you don't need a to-do list anymore» — 20:23 Список дел тебе больше не нужен

«Now is the most wonderful era in the history of software development» — 21:27 Сейчас — самая прекрасная эпоха в истории разработки ПО

«The wall of development has collapsed. The only question left is what to make» — 21:31 Стена разработки рухнула. Остался единственный вопрос — что строить

«Let's make what people want» — 21:39 Давайте делать то, что нужно людям

12:24 Самое интересное в нынешнюю эпоху — то, что ты придумываешь идею и можешь продвинуть её дальше, чем воображал

12:32 Честно говоря, примерно в 1 из 3 случаев в конце оказывается, что идея не имеет смысла

Факты

  • Спикер — партнёр YC, построил первую версию Bookface (соцсеть и база знаний YC) и микроблог-платформу/стартап Poster/Posteras.
  • Posteras ранее строился ~2 года командой из ~10 инженеров и сооснователей; пересборка через агентов обошлась примерно в $10 000.
  • GStack написан примерно за 3 недели; репозиторий — github.com/...gritan/gstack (название в SRT искажено), счёт звёзд назван «более 70 000».
  • OfficeHour опирается на опыт 16 партнёров YC и стартует с 6 обязательных вопросов.
  • Демо-кейс — налоговое приложение для поиска и скачивания форм 1099 из Gmail и банковских порталов (день подачи налогов).
  • Adversarial-ревью на Opus 4.6 автоматически нашло и исправило 16 проблем, подняв оценку дизайн-документа с 6/10 до 8/10, оставив 3 проблемы на потом; у спикера «5+ счетов», с которых приходят 1099.
  • Design shotgun генерирует 3 варианта UI примерно за 60 секунд через OpenAI Codex с генерацией изображений; варианты — Command Center, Friendly Progress, Split/Divide View.
  • В GStack «28 типов команд» (скиллов); упомянуты OfficeHour, CEO review, auto-plan, design check/shotgun, QA-браузер.
  • QA-инструмент построен на Playwright + headless Chromium, обёрнутых в CLI; Chrome MCP до того тратил 2–3 секунды на действие и «раздувал контекст».
  • Рабочий режим: 10–15 параллельных сессий, до 50 PR в день, около 400 PR на ревью в open-source проектах с «десятками тысяч звёзд».
  • Цель — «software factory level 8»; GStack достигает заявленного level 7.
  • Толчком в январе послужило то, что Andrej Karpathy и Boris Cherny (имена в SRT искажены) перестали писать код вручную — после чего спикер начал использовать Claude Code.
  • Конкуренты в кейсе 1099: TurboTax и H&R Block (функции импорта 1099), Plaid (подключение к банкам); инструмент-оркестратор — Conductor.

Источники

  • GStack — open-source репозиторий скиллов для агентной разработки (github.com/.../gstack)
  • Conductor — инструмент для запуска/оркестрации параллельных агентных сессий
  • Claude Code / cloud code, Opus 4.6 (Anthropic) — модель для ревью и кодинга
  • OpenAI Codex — генерация дизайн-вариантов с изображениями
  • Playwright + Chromium CLI — основа QA-инструмента; Chrome MCP — отвергнутая альтернатива
  • Bookface, Poster/Posteras — прошлые проекты спикера
  • TurboTax, H&R Block, Plaid — упомянутые продукты в кейсе 1099
  • Andrej Karpathy, Boris Cherny — упомянуты как переставшие писать код вручную
  • Y Combinator (YC) — источник методологии OfficeHour

Рекомендации

  • Попробовать GStack прямо сейчас (github.com/.../gstack) и прислать автору обратную связь.
  • Начинать работу с GStack через Conductor и Quick Start.
  • Перед написанием кода прогонять идею через OfficeHour, отвечая на 6 вопросов честно.
  • Брать инициативу и строить то, что нужно людям — «теперь единственный вопрос: что делать».

Итог

Эра агентов сместила дефицит с написания кода на процесс вокруг него — и тот, кто закодирует команду, роли и ревью в переиспользуемые skills, превращает одного агента в инженерную фабрику; стена рухнула, остался лишь вопрос «что строить».

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Y Combinator»

Все видео