Андрей Карпатый: софт снова меняется

Y Combinator19 июня 20252 453 84957 132вчера, 12:59

Коротко

Андрей Карпатый утверждает, что софт фундаментально изменился дважды за последние годы: появилось Software 2.0 (веса нейросетей вместо кода) и Software 3.0 (промпты на английском, программирующие LLM). LLM-лаборатории работают одновременно как утилиты (CapEx на обучение, OpEx на API, требования к uptime), как фабрики (глубокий tech tree, концентрация R&D-секретов) и как операционные системы (сложная экосистема, GUI ещё не изобретён, мы в эпохе ~1960-х с time-sharing в облаке). LLM — это «people spirits», стохастические симуляции людей с энциклопедической памятью, но с галлюцинациями, антероградной амнезией и jagged intelligence. Главная практическая идея: строить не автономных агентов, а Iron Man-костюмы — приложения с GUI, autonomy slider'ом и быстрым циклом generation/verification, держа AI на коротком поводке. Декада агентов, а не год агентов; и нужно переписывать документацию и инфраструктуру под нового потребителя — LLM.

Главный тезис

Софт переживает фундаментальный сдвиг — от кода (1.0) к весам (2.0) к промптам на английском (3.0) — и сейчас уникальный момент войти в индустрию, но строить надо частично-автономные продукты с человеком в петле, а не флешевые демо полностью автономных агентов.

Ключевые идеи

  • 0:51 — софт не менялся фундаментально 70 лет, а потом дважды быстро изменился за несколько лет: появились Software 2.0 и 3.0.
  • 1:36Software 2.0 — это веса нейросетей; ты не пишешь код, а тюнишь датасеты и запускаешь оптимизатор. Hugging Face = GitHub для 2.0.
  • 3:06Software 3.0 возник, когда нейросети стали программируемыми через LLM, а промпты на английском — это программы.
  • 5:25 — в Tesla Autopilot нейросеть «съела» C++-стек: код 1.0 удалялся, функции мигрировали в 2.0 (например, стычка изображений с камер).
  • 6:29 — LLM ведут себя как утилиты: CapEx на обучение (как стройка сети), OpEx через API с metered access, требования к latency/uptime, OpenRouter как transfer switch.
  • 7:45 — когда LLM падают, мир переживает «интеллектуальный брауноут» — планета тупеет пропорционально зависимости.
  • 9:07 — LLM ближе всего к операционным системам: несколько closed-source (Windows/macOS = GPT/Claude/Gemini) и open-source альтернатива (Linux ≈ экосистема Llama).
  • 11:00 — мы в эпохе 1960-х: дорогой compute, централизация в облаке, time-sharing, тонкие клиенты; персональных компьютеров для LLM ещё нет (Mac Mini как ранний намёк).
  • 12:58 — LLM перевернули диффузию технологий: впервые потребители получили доступ раньше, чем правительства и корпорации.
  • 14:48 — LLM — это «people spirits», стохастические симуляции людей: энциклопедическая память (Rain Man), но галлюцинации, jagged intelligence, антероградная амнезия (Memento), уязвимость к prompt injection.
  • 18:27 — будущее за partial autonomy apps (Cursor, Perplexity): управление контекстом, оркестрация LLM, GUI для аудита, autonomy slider под сложность задачи.
  • 22:54 — главное правило: держать AI на поводке — маленькие итерации, конкретные промпты, не принимать 1000 строк diff'а на доверии.
  • 27:33 — не «год агентов», а декада агентов: софт сложен, как самоуправление (Waymo возит с 2013, до сих пор не решено).
  • 28:25 — стройте Iron Man-костюмы, а не Iron Man-роботов — продукты-усилители с возможностью постепенно сдвигать слайдер автономности.
  • 29:16vibe coding: английский как язык программирования сделал программистами всех; barrier из 5–10 лет учёбы исчез.
  • 33:35 — нужно строить инфраструктуру под агентов: llms.txt, доки в Markdown, curl вместо «click», Model Context Protocol, gitingest, DeepWiki.

Почему это важно

Это водораздельный момент для индустрии: фронтирные модели становятся новой утилитой и ОС одновременно, а контроль над «фабриками» концентрируется в OpenAI, Anthropic, Google, Meta. Открытая экосистема (Llama, Hugging Face) играет роль Linux — это поле для разработчиков и стартапов, которые могут строить partial autonomy продукты поверх API. Бизнес-победители — те, кто переоборудует продукты под двух потребителей сразу (человек через GUI и агент через структурированный интерфейс): Vercel заменяет «click» на curl, Stripe и Excel выкладывают доки в Markdown, Anthropic продвигает MCP. Проигрывают те, кто остаётся в парадигме «человек кликает кнопки» — их продукты будут невидимы для агентского трафика, который Карпатый считает новой категорией digital information consumer.

Идеи

  • Software 1.0 → 2.0 → 3.0 — три парадигмы, и junior'ам в индустрии нужно быть fluent во всех трёх.
  • Карта GitHub визуализирует «всё ПО мира»; у Software 2.0 есть аналог — Model Atlas.
  • Гигантский кластер в центре Model Atlas — параметры Flux; каждая LoRA = git-коммит в пространстве весов.
  • Промпт-программы написаны на английском — впервые в истории нативный язык человека = язык программирования.
  • LLM-лабы — это и утилита (электросеть), и фаб (deep tech tree, R&D-секреты), и ОС (экосистема приложений) одновременно.
  • 4nm process node ≈ кластер с определённым max flops; fabless model = тренировка на NVIDIA; Google на TPU = «как Intel со своим фабом».
  • Когда LLM падают, наступает «intelligence brownout» — нестабильное напряжение в сети интеллекта.
  • ChatGPT появился у миллиардов мгновенно — невиданный для новой технологии путь распространения.
  • LLM приходят в наши руки раньше, чем в правительство — обратная диффузия по сравнению с электричеством, GPS, интернетом.
  • LLM похожи на Rain Man — почти идеальная память (SHA-хэши, телефонные книги), но когнитивные дефициты.
  • Jagged intelligence: суперчеловек в одних задачах, ошибается в «9.11 > 9.9» или «две R в strawberry».
  • LLM страдают антероградной амнезией — у них фиксированные веса и обнуляемое контекстное окно (Memento, 50 First Dates).
  • Контекстное окно = working memory, его нужно программировать вручную — модель не учится «от работы».
  • Application-specific GUI критичен: текст эффортен, визуальный канал — «highway to your brain».
  • Cursor — образцовый LLM-app: embedding-модели, чат, diff-апплаер — всё оркестрировано под капотом.
  • Autonomy slider в Cursor: tab → Cmd+K → Cmd+L → Cmd+I (полный агент по репозиторию).
  • Perplexity тоже имеет slider: quick search → research → deep research.
  • Принципы partial autonomy: ускоряй verification (GUI) + держи AI на коротком поводке (маленькие diff'ы, конкретные промпты).
  • Карпатый строит образовательное приложение как два разных app: один для учителя (генерирует курс), второй для ученика (преподаёт по курсу) — артефакт-курс держит AI на поводке.
  • Первая полностью автономная поездка Waymo у Карпатого была в 2013 — и спустя 12 лет в Waymo всё ещё teleoperation и human-in-the-loop.
  • Twitter-tweet про vibe coding стал мемом неожиданно — Карпатый за 15 лет так и не научился предсказывать виральность.
  • Карпатый bytekod'ил iOS-приложение на Swift, которого не знает, — рабочее за день.
  • Menugen.app — bytekod'ил за часы, но неделю мучился с auth, payments, deployment («Vibe coding часть была лёгкая»).
  • Menugen — negative revenue app: даёт $5 кредитов всем при регистрации, Карпатый теряет деньги.
  • Документация типа Clerk-инструкций («перейди по URL, кликни тут») — это компьютер, говорящий человеку что делать, абсурд.
  • llms.txt (по аналогии с robots.txt) — простой markdown-файл, описывающий домен для LLM.
  • Vercel заменяет «click» на эквивалентный curl — реальный сдвиг доков под агента.
  • DeepWiki от Devin — не просто конкатенация репо, а сгенерированная вики по проекту, удобная для LLM.
  • gitingest: замени github.com на gitingest.com — получишь весь репо в одном тексте для копипаста.
  • Карпатый скопировал доки Manim (от 3Blue1Brown) в LLM и тот сгенерировал готовую анимацию.
  • Iron Man-костюм — лучшая метафора партиал-автономии: и аугментация, и агент в одном.

Инсайты

  • Парадигмы программирования множатся, а не вытесняют друг друга — фрагменты 1.0/2.0/3.0 будут жить вместе в одном продукте, и инженерное мастерство = умение выбирать парадигму под подзадачу.
  • Программируемость языком — это коллапс барьера входа, который структурно перерисовывает рынок труда в IT: преимущество смещается от знания синтаксиса к умению формулировать задачи и верифицировать результат.
  • LLM — это новая категория абстракции вычисления, не классификатор и не утилита, а среда исполнения с собственной психологией; интуиции из обоих миров (ПО и людей) работают только наполовину.
  • GUI — это не косметика, а bandwidth-усилитель верификации; в эпоху, где модель генерирует быстрее, чем человек читает, скорость аудита определяет производительность.
  • Автономия — это slider, а не switch: правильный продукт даёт пользователю настраивать долю делегирования под риск задачи, а не выбирает за него «полный агент или ничего».
  • Демки автономии обманчивы — расстояние от «идеального демо» до «работает в проде» измеряется десятилетиями (Waymo 2013 → 2025), и LLM-агенты пройдут тот же путь.
  • Софт-инфраструктура должна обзавестись вторым интерфейсом — машинно-читаемым (Markdown-доки, llms.txt, MCP, curl-инструкции), потому что появился третий тип потребителя цифровой информации после людей и API.
  • Стоимость инференса определяет архитектуру эры: пока compute дорог, мы в эре mainframe'ов; персональный AI-компьютер появится, когда экономика batch=1 inference станет жизнеспособной.
  • Доверие к диффу обратно пропорционально его размеру: эффективная работа с AI = форсированно маленькие шаги и быстрый цикл, а не «дай AI задачу и приди через час».
  • Диффузия снизу вверх ломает традиционные модели adoption: правительства и корпорации теперь догоняют потребителей, а не наоборот — это переворачивает где искать early signals технологического сдвига.
  • Open source в LLM эволюционирует медленнее, чем закрытые модели, потому что capex и tech tree централизуют R&D; роль Linux в этой эре будет ограниченнее, чем в эпохе ОС.

Фреймворки

Три поколения софта (Software 1.0 / 2.0 / 3.0):

  • 1.0 — императивный код, который пишет человек для компьютера (Python, C++).
  • 2.0 — веса нейросетей; программирование через датасеты и оптимизатор; хостинг — Hugging Face.
  • 3.0 — промпты на естественном языке, программирующие LLM; код — английский.

Три аналогии для LLM (одновременно):

  • Утилита — CapEx/OpEx, metered API, требования к latency/uptime, transfer switch (OpenRouter).
  • Фаб — глубокий tech tree, концентрация R&D-секретов, дорогой capex; fabless vs. собственный фаб (TPU).
  • Операционная система — экосистема приложений, closed/open source split, GUI vs. terminal, переносимость приложений между моделями.

Autonomy slider (на примере Cursor):

  • Tab completion → Cmd+K (chunk) → Cmd+L (file) → Cmd+I (repo agent).
  • Слайдер настраивается под сложность задачи и риск.

Принципы LLM-app:

  • Управление контекстом за пользователя.
  • Оркестрация нескольких LLM-вызовов.
  • Application-specific GUI для быстрого аудита.
  • Autonomy slider.

Два рычага ускорения цикла generation/verification:

  • Ускорять верификацию (GUI, визуальные diff'ы).
  • Держать AI на коротком поводке (конкретные промпты, маленькие шаги, артефакты-чекпоинты).

Цитаты

«Software is changing again» — 0:42 Софт снова меняется

«Software 1.0 is the code you write for the computer. Software 2.0 are basically neural networks» — 1:41 Software 1.0 — это код, который ты пишешь для компьютера. Software 2.0 — это, по сути, нейросети

«Your prompts are now programs that program the LLM» — 3:19 Твои промпты теперь — это программы, которые программируют LLM

«Remarkably, we're now programming computers in English» — 4:24 Поразительно, мы теперь программируем компьютеры на английском

«The software 2.0 stack quite literally ate through the software stack of the autopilot» — 5:25 Стек Software 2.0 буквально съел стек автопилота

«AI is the new electricity» — 6:29 AI — это новое электричество

«When the state-of-the-art LLMs go down, it's actually kind of like an intelligence brownout in the world» — 7:45 Когда падают передовые LLM, это похоже на интеллектуальный брауноут во всём мире

«LLMs have very strong kind of analogies to operating systems» — 9:10 У LLM очень сильные аналогии с операционными системами

«We're kind of like in this 1960s-ish era where LLM compute is still very expensive» — 11:00 Мы как будто в эпохе 1960-х, где compute для LLM всё ещё очень дорогой

«LLMs flip the direction of technology diffusion» — 12:58 LLM переворачивают направление диффузии технологий

«The way I like to think about LLMs is that they're kind of like people spirits» — 14:48 Я люблю думать о LLM как о духах людей

«They display jagged intelligence» — 16:20 Они демонстрируют рваный интеллект

«They also kind of suffer from enterograde amnesia» — 16:41 Они страдают антероградной амнезией

«We have to keep the AI on the leash» — 22:54 Мы должны держать AI на поводке

«It's not useful to me to get a diff of 1,000 lines of code to my repo» — 23:00 Мне бесполезно получать diff на 1000 строк в свой репозиторий

«When I see things like, oh, 2025 is the year of agents, I get very concerned. And I kind of feel like, you know, this is the decade of agents» — 27:33 Когда я вижу «2025 — год агентов», я начинаю беспокоиться. Это десятилетие агентов

«It's less Iron Man robots and more Iron Man suits that you want to build» — 28:25 Строить надо не Iron Man-роботов, а Iron Man-костюмы

«Suddenly, everyone is a programmer because everyone speaks natural language» — 29:16 Внезапно каждый — программист, потому что каждый говорит на естественном языке

«How can you look at this video and feel bad about the future? The future is great» — 30:45 Как можно смотреть это видео и переживать за будущее? Будущее прекрасно

«The code was actually the easy part of vibe coding Menugen» — 32:29 Код был на самом деле лёгкой частью vibe coding'а Menugen

«A computer is telling me the actions I should be taking. Like you do it. Why am I doing this?» — 33:21 Компьютер говорит мне, какие действия выполнить. Сам и делай. Почему это делаю я?

«Can we just build for agents?» — 33:35 Может, мы просто начнём строить для агентов?

«If we can make docs legible to LLMs, it's going to unlock a huge amount of use» — 35:44 Если сделать доки читаемыми для LLM, это разблокирует огромное количество применений

Факты

  • Карпатый — бывший директор AI в Tesla, работал над автопилотом ~5 лет.
  • Software фундаментально не менялся ~70 лет до недавнего двойного сдвига.
  • Hugging Face — аналог GitHub для Software 2.0; Model Atlas визуализирует пространство весов.
  • Гигантская точка в центре Model Atlas — параметры Flux (image generator); LoRA = коммит в этом пространстве.
  • OpenRouter — аналог transfer switch для переключения между LLM-провайдерами.
  • За несколько дней до выступления случился массовый сбой LLM — пользователи не могли работать («intelligence brownout»).
  • Карпатый ссылается на цитату Andrew Ng «AI is the new electricity» (выступал сразу после Карпатого).
  • Аналог Linux в LLM — экосистема Llama (Meta).
  • Mac Mini упомянут как подходящий девайс для batch=1 inference (memory-bound).
  • Известные ошибки LLM, упомянутые Карпатым: «9.11 > 9.9», «two R's in strawberry».
  • Фильмы-аналоги для LLM-психологии: Rain Man, Memento, 50 First Dates.
  • Первая поездка Карпатого в self-driving (Waymo, Palo Alto): 2013, ~30 минут, ноль интервенций; снимал на Google Glass.
  • Спустя 12 лет (на момент доклада) Waymo всё ещё использует teleoperation и human-in-the-loop.
  • Tweet Карпатого про vibe coding стал мемом с Wikipedia-страницей.
  • Tom Wolf (Hugging Face) поделился видео детей, занимающихся vibe coding.
  • Карпатый написал iOS-приложение на Swift, не зная Swift, за день.
  • Menugen.app — vibe-coded приложение Карпатого, генерирующее изображения блюд по фото меню; даёт $5 кредитов всем при регистрации; убыточно.
  • Vibe coding Menugen занял часы, доводка до production (auth, payments, deploy) — неделю.
  • Vercel заменяет «click» в инструкциях на эквивалентные curl команды для агентов.
  • Anthropic разработал Model Context Protocol (MCP) для общения с агентами.
  • Stripe и Excel — ранние мувер по выкладыванию документации в Markdown для LLM.
  • gitingest — конкатенирует GitHub-репо в один текст для LLM (замена URL).
  • DeepWiki (от Devin) — генерирует вики-документацию для GitHub-репо.
  • 3Blue1Brown — автор библиотеки анимаций Manim, которую Карпатый использовал через LLM.

Источники

  • Andrej Karpathy — автор доклада, бывший директор AI в Tesla.
  • Andrew Ng — автор фразы «AI is the new electricity», следующий спикер.
  • Tom Wolf — Hugging Face, поделился видео детей-vibe-coder'ов.
  • 3Blue1Brown / Grant Sanderson — автор Manim.
  • OpenAI, Anthropic, Google (Gemini), Meta (Llama) — основные LLM-лабы.
  • Cursor — пример partial autonomy app для кода.
  • Perplexity — пример partial autonomy app для поиска.
  • GitHub, Hugging Face, Model Atlas — карты экосистем 1.0 и 2.0.
  • OpenRouter — switching между LLM.
  • Vercel, Stripe, Excel — компании, адаптирующие доки под LLM.
  • Clerk — пример «плохого» интерфейса с инструкциями «кликни тут».
  • Devin / DeepWiki — генерация документации под LLM.
  • gitingest — превращение репо в текст для LLM.
  • Manim — библиотека анимаций.
  • Model Context Protocol (MCP) — от Anthropic.
  • Waymo — self-driving, аналог по темпу освоения автономии.
  • Фильмы: Rain Man, Memento, 50 First Dates, Iron Man.

Рекомендации

  • Будьте fluent во всех трёх парадигмах (1.0, 2.0, 3.0) — выбирайте под подзадачу.
  • Стройте partial autonomy продукты, а не флешевые автономные демо.
  • Делайте GUI для аудита работы AI — текст слишком эффортен.
  • Держите AI на коротком поводке: маленькие incremental diff'ы, конкретные промпты.
  • Не доверяйте 1000-строчным diff'ам от агента — вы остаётесь bottleneck'ом.
  • Готовьте инфраструктуру под агентов: Markdown-доки, llms.txt, curl вместо «click», MCP.
  • Используйте gitingest/DeepWiki для подачи репозиториев в LLM.
  • Смотрите фильмы Rain Man, Memento, 50 First Dates — как метафоры для понимания LLM.

Итог

Не год агентов, а декада агентов: стройте Iron Man-костюмы с autonomy slider'ом, держите LLM-духов на коротком поводке и переоборудуйте инфраструктуру под нового цифрового потребителя.

readmint Pro

Понравилось саммари? Сделайте такое же по своему видео

Вставьте ссылку на любое YouTube-видео — readmint расшифрует его и соберёт пересказ с главными тезисами и цитатами. Без воды и перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Саммари своего видео
Вставьте ссылку на YouTube, разбор будет готов за 2–3 минуты.

Безлимит по подписке readmint Pro — 499 ₽/мес