Коротко
Спикер — основатель и партнёр YC (автор первой версии Bookface и стартапа Poster/Posteras) — утверждает, что разработка ПО вошла в «эпоху агентов», и за два месяца он написал кодом больше, чем команда инженеров за годы. Его подход воплощён в открытом инструменте GStack («тонкий harness, толстые skills»): набор из ~28 команд-скиллов, которые превращают агента в профессиональную инженерную команду с ролями, процессом и ревью. Центральный скилл OfficeHour имитирует менторскую сессию YC — задаёт 6 обязательных вопросов и пытает идею стартапа, прежде чем писать код. Дальше идут планирование, мульти-стадийное «враждебное» (adversarial) ревью на Opus 4.6, визуальный design shotgun (3 варианта дизайна через Codex), реализация и автоматизированный QA через обёрнутый в CLI Playwright/Chromium. Бутылочное горлышко, по его словам, — не интеллект модели, а тонкость «harness»: при правильной настройке агент справляется, а GStack даёт ему процесс.
Главный тезис
Узкое место AI-разработки — не ум модели, а отсутствие процесса вокруг неё; правильно выстроенная «команда» из скиллов (роли + процесс + ревью) превращает одиночного агента в профессиональную инженерную фабрику.
Ключевые идеи
- 0:43 — разработка входит в эпоху агентов, и работать с агентами надо так же, как с командой: разделение ролей, процесс, ревью.
- 0:58 — GStack написан за 3 недели, репозиторий набрал десятки тысяч звёзд (упоминается «более 70 000»).
- 1:12 — за 2 месяца спикер написал кодом больше, чем целая инженерная команда раньше; Posteras, который строили 2 года с 10 инженерами, он пересобрал почти целиком примерно за $10 000.
- 2:01 — бутылочное горлышко — не интеллект модели, а тонкость harness; «нога очень тонкая».
- 2:15 — философия GStack: тонкий harness и толстые skills, агент как профессиональная команда поверх open-source репозитория.
- 2:31 — OfficeHour воспроизводит реальную менторскую сессию YC: 6 обязательных вопросов до начала стройки, чтобы пересобрать продуктовую рамку.
- 3:21 — скилл выжат из тысяч часов работы 16 партнёров YC, это «концентрат на 10% от того, что говорят в YC ежедневно».
- 5:30 — ключевой вопрос, решающий всё остальное: какое самое сильное доказательство, что это реально кому-то нужно.
- 6:49 — пример: сбор 1099 — это wedge-стратегия и lead-gen к составителю налоговой декларации; монетизация процента со сделки даёт «в 10+ раз больше», чем подписка $2–5.
- 13:02 — Opus 4.6 прогоняет мульти-стадийное adversarial-ревью дизайн-документа, автоматически находит и чинит проблемы (в примере — 16 проблем, оценка выросла с 6/10 до 8/10).
- 13:44 — design shotgun / design check: визуальный брейншторм, генерирующий 3 версии UI (Command Center / Friendly / Split View) через Codex с генерацией изображений за ~60 сек.
- 16:18 — auto-plan прогоняет идею через ревью CEO, инженерии, дизайна и DevEx по дефолтным предпочтениям автора — «как сделал бы я».
- 18:57 — собственный QA-инструмент: Playwright, обёрнутый на уровне CLI + headless Chromium, чтобы агент реально кликал, вводил, делал скриншоты — замена медленному и прожорливому Chrome MCP.
- 19:36 — рабочий метод: 10–15 параллельных сессий одновременно, до 50 PR в день, через Conductor с work-tree на каждую задачу.
- 20:13 — главный страх AI-кодинга сейчас — supply chain атаки; ~400 PR на ревью в open-source проектах оцениваются «волнами».
Почему это важно
Это маркетинговая демонстрация нового слоя инструментов поверх агентов-кодеров (Claude Code / cloud code, Codex, Conductor): ценность смещается от самой модели к процессному обвесу — скиллам, ролям и автоматическому ревью. Выигрывают платформы агентов (Anthropic с Opus, OpenAI с Codex) и авторы harness-фреймворков вроде GStack, аккумулирующие экспертизу (здесь — 16 партнёров YC и методологию OfficeHour) в переиспользуемый код. Проигрывают традиционные инженерные команды и точечные SaaS (TurboTax, плагины импорта 1099), чьи функции wedge-стартап обходит браузерной автоматизацией. Подтекст: YC экспортирует свою менторскую IP в виде open-source, расширяя воронку основателей, способных строить продукт в одиночку.
Идеи
- Скилл OfficeHour — это «продукт» из менторской методологии: экспертиза превращается в исполняемый код.
- Первый вопрос, заданный модели, определяет траекторию всего проекта — не «как», а «есть ли доказательство спроса».
- Сбор документов 1099 ценен не сам по себе, а как клин (wedge) к более дорогой услуге — составлению деклараций.
- Монетизация через процент с финальной сделки бьёт подписку $2–5 примерно в 10 раз.
- Браузерная автоматизация позволяет полностью пропустить Google OAuth: пользователь сам открывает Gmail, агент ищет 1099 внутри уже открытой сессии.
- Нет хранения паролей/токенов — аутентификация остаётся в живом браузере пользователя, что снимает часть приватностных рисков.
- «Galley mode» в Conductor показывает рассуждения модели в реальном времени — наблюдаемость как фича.
- adversarial-ревью прогоняется в несколько проходов: документ проходит «2-е враждебное ревью» и получает числовую оценку.
- Оставшиеся 3 проблемы из ревью сознательно откладываются «на потом» — не всё чинится сразу.
- Design shotgun генерирует несколько вариантов UI и заставляет человека просто выбрать — выбор дешевле создания.
- Вариант для «Linux-хакеров» (A) проигрывает дружелюбному варианту (B) для обычных людей — UX-калибровка по аудитории.
- Можно прыгать сразу к design shotgun, минуя plan/CEO-ревью — процесс не линейный, а набор инструментов.
- auto-plan кодирует личные дефолты автора, чтобы не повторять одни и те же решения вручную каждый раз.
- QA назван «самой неприятной частью разработки» — поэтому автоматизирован в первую очередь.
- Chrome MCP описан как «один из худших софтов» — медленный, прожорливый по контексту, часто ничего не делает.
- Собственный CLI-Playwright оказался достаточно мощным, чтобы агент делал полноценный e2e: клики, ввод, скриншоты, скачивание медиа.
- Уровень «software factory level 8» — недостижимый идеал; GStack целится в level 7.
- Параллелизм: несколько окон Conductor на разных проектах + 3–4 агента на одном проекте через параллельные ветки и PR.
- 400 PR на ревью оцениваются «как волна» — пакетная обработка вклада сообщества.
- Plus-иконка в Conductor создаёт новый work-tree = новая единица работы; «список дел больше не нужен».
- Идея, которую «3 месяца назад никто бы не попробовал», теперь реализуема за вечер — порог эксперимента упал.
- Сам автор по ходу демо загорается построить tax-app «для себя, ради фана» — инструмент провоцирует спонтанные проекты.
- В ~1 из 3 OfficeHour-сессий вывод — «идея не имеет смысла»; фильтрация бессмысленных идей и есть ценность.
- Стена разработки рухнула — остался только вопрос «что строить», а не «как».
Инсайты
- Ценность в AI-разработке мигрирует с модели на процессный слой: кто владеет методологией-обвесом, владеет результатом.
- Экспертизу можно компилировать в исполняемый артефакт — менторство, ревью, вкус становятся переиспользуемым кодом, а не разовой консультацией.
- Узкое место систем с LLM почти всегда не в «уме», а в строительных лесах вокруг: интерфейсах, инструментах, циклах проверки.
- Adversarial-ревью с числовой оценкой превращает субъективное качество в управляемую, итеративную метрику.
- Генерация дешевле выбора: правильный паттерн — модель производит N вариантов, человек тратит дорогой ресурс внимания только на отбор.
- Наблюдаемость рассуждений модели (galley mode) — не украшение, а условие доверия и контроля при делегировании.
- Архитектура «тонкий harness / толстые skills» переносит сложность из жёсткого каркаса в сменные модули — система масштабируется добавлением навыков, а не переписыванием ядра.
- Wedge-логика стартапов универсальна и для AI-продуктов: входи через узкую боль, монетизируй смежную дорогую транзакцию.
- Браузер как «runtime аутентификации» обходит интеграционный ад API/OAuth, перекладывая доверие на уже-залогиненную сессию пользователя.
- Параллелизм агентов смещает дефицит с «написать код» на «отревьюить и смёржить» — новое горлышко человеческое, а не машинное.
- Падение стоимости эксперимента меняет экономику идей: проверять гипотезы дешевле, чем обсуждать, поэтому фильтр-механизм (OfficeHour) важнее генерации.
- Автоматизация должна начинаться с самой неприятной задачи, а не с самой видимой — QA, а не написание фич.
Фреймворки
- Sprint-процесс GStack (роли как пайплайн): OfficeHour (валидация идеи, 6 обязательных вопросов) → Plan / auto-plan → ревью CEO → инженерное ревью → дизайн-ревью → DevEx-ревью → adversarial-ревью (мульти-стадийное, с оценкой N/10) → реализация → автоматический QA (Playwright CLI). Каждая задача = новый work-tree.
- Уровни «software factory» (0→8): иерархия автоматизации разработки; GStack заявлен как достижимый level 7, level 8 — недостижимый идеал. Level 7 = параллельные окна Conductor на разных проектах + 3–4 агента на одном проекте с параллельными ветками/PR и почти одновременным мёржем.
- Design shotgun: генерация 3 направлений UI одновременно (напр. Command Center / Friendly Progress / Split View) → оценка человеком по баллам → лок выбранного варианта или рестарт с фидбеком.
Цитаты
«software development is entering a completely new age, the age of agents» — 0:43 разработка ПО входит в совершенно новую эпоху — эпоху агентов
«The bottleneck here is not the intelligence of the model» — 2:01 Бутылочное горлышко здесь — не интеллект модели
«Gustack is an approach that uses a thin harness and thick skills» — 2:15 GStack — это подход с тонким harness и толстыми skills
«What is the most powerful evidence that someone is actually wanting this?» — 5:30 Какое самое сильное доказательство, что это реально кто-то хочет?
«this is a classic wedge strategy» — 6:49 это классическая wedge-стратегия
«Currently, Opus 4.6 is doing a multi-stage, hostile review» — 13:02 Сейчас Opus 4.6 делает мульти-стадийное враждебное ревью
«we automatically detected and corrected 16 problems» — 13:27 мы автоматически обнаружили и исправили 16 проблем
«Design check is my visual brainstorming tool» — 14:13 Design check — мой инструмент визуального брейншторма
«Chrome MCP Cloud was one of the worst softwares I've ever used» — 18:28 Chrome MCP был одним из худших софтов, что я использовал
«Basically, I wrapped the play light at CLI level» — 18:57 По сути, я обернул Playwright на уровне CLI
«I run 10 to 15 parallel code sessions simultaneously» — 19:36 Я гоняю 10–15 параллельных кодовых сессий одновременно
«One of the really scary things about AI coding right now is the supply chain attack» — 20:13 Одна из по-настоящему пугающих вещей в AI-кодинге сейчас — supply chain атака
«So you don't need a to-do list anymore» — 20:23 Список дел тебе больше не нужен
«Now is the most wonderful era in the history of software development» — 21:27 Сейчас — самая прекрасная эпоха в истории разработки ПО
«The wall of development has collapsed. The only question left is what to make» — 21:31 Стена разработки рухнула. Остался единственный вопрос — что строить
«Let's make what people want» — 21:39 Давайте делать то, что нужно людям
12:24 Самое интересное в нынешнюю эпоху — то, что ты придумываешь идею и можешь продвинуть её дальше, чем воображал
12:32 Честно говоря, примерно в 1 из 3 случаев в конце оказывается, что идея не имеет смысла
Факты
- Спикер — партнёр YC, построил первую версию Bookface (соцсеть и база знаний YC) и микроблог-платформу/стартап Poster/Posteras.
- Posteras ранее строился ~2 года командой из ~10 инженеров и сооснователей; пересборка через агентов обошлась примерно в $10 000.
- GStack написан примерно за 3 недели; репозиторий —
github.com/...gritan/gstack(название в SRT искажено), счёт звёзд назван «более 70 000». - OfficeHour опирается на опыт 16 партнёров YC и стартует с 6 обязательных вопросов.
- Демо-кейс — налоговое приложение для поиска и скачивания форм 1099 из Gmail и банковских порталов (день подачи налогов).
- Adversarial-ревью на Opus 4.6 автоматически нашло и исправило 16 проблем, подняв оценку дизайн-документа с 6/10 до 8/10, оставив 3 проблемы на потом; у спикера «5+ счетов», с которых приходят 1099.
- Design shotgun генерирует 3 варианта UI примерно за 60 секунд через OpenAI Codex с генерацией изображений; варианты — Command Center, Friendly Progress, Split/Divide View.
- В GStack «28 типов команд» (скиллов); упомянуты OfficeHour, CEO review, auto-plan, design check/shotgun, QA-браузер.
- QA-инструмент построен на Playwright + headless Chromium, обёрнутых в CLI; Chrome MCP до того тратил 2–3 секунды на действие и «раздувал контекст».
- Рабочий режим: 10–15 параллельных сессий, до 50 PR в день, около 400 PR на ревью в open-source проектах с «десятками тысяч звёзд».
- Цель — «software factory level 8»; GStack достигает заявленного level 7.
- Толчком в январе послужило то, что Andrej Karpathy и Boris Cherny (имена в SRT искажены) перестали писать код вручную — после чего спикер начал использовать Claude Code.
- Конкуренты в кейсе 1099: TurboTax и H&R Block (функции импорта 1099), Plaid (подключение к банкам); инструмент-оркестратор — Conductor.
Источники
- GStack — open-source репозиторий скиллов для агентной разработки (
github.com/.../gstack) - Conductor — инструмент для запуска/оркестрации параллельных агентных сессий
- Claude Code / cloud code, Opus 4.6 (Anthropic) — модель для ревью и кодинга
- OpenAI Codex — генерация дизайн-вариантов с изображениями
- Playwright + Chromium CLI — основа QA-инструмента; Chrome MCP — отвергнутая альтернатива
- Bookface, Poster/Posteras — прошлые проекты спикера
- TurboTax, H&R Block, Plaid — упомянутые продукты в кейсе 1099
- Andrej Karpathy, Boris Cherny — упомянуты как переставшие писать код вручную
- Y Combinator (YC) — источник методологии OfficeHour
Рекомендации
- Попробовать GStack прямо сейчас (
github.com/.../gstack) и прислать автору обратную связь. - Начинать работу с GStack через Conductor и Quick Start.
- Перед написанием кода прогонять идею через OfficeHour, отвечая на 6 вопросов честно.
- Брать инициативу и строить то, что нужно людям — «теперь единственный вопрос: что делать».
Итог
Эра агентов сместила дефицит с написания кода на процесс вокруг него — и тот, кто закодирует команду, роли и ревью в переиспользуемые skills, превращает одного агента в инженерную фабрику; стена рухнула, остался лишь вопрос «что строить».