Коротко
Разговор Лекса Фридмана с Дилана Пателом (SemiAnalysis) и Нейтаном Ламбертом (Allen Institute) разбирает «момент DeepSeek»: китайская лаборатория при хедж-фонде High-Flyer выпустила открытую MoE-модель DeepSeek V3 и reasoning-модель R1 с дешёвым обучением и инференсом, что обрушило акции NVIDIA на иррациональной панике, хотя по тренду удешевления интеллекта DeepSeek не ниже кривой. Технически прорыв держится на двух вещах — mixture of experts с высокой sparsity (8 из 256 экспертов) и собственном внимании MLA (multi-head latent attention), плюс программирование ниже уровня CUDA (PTX, ручное распределение SM) из-за урезанных H800. Главный геополитический сюжет — экспортный контроль: США кнекапят плотность вычислений в Китае, ставка на то, что AI изменит экономику за 5–10 лет, иначе ограничения только ускорят Китай. Reasoning-модели смещают нагрузку с обучения на test-time compute и память (KV-cache), а будущий рост — в RL на верифицируемых задачах (математика, код, в перспективе computer use и робототехника). Спикеры — оптимисты по NVIDIA и сторонники открытых моделей как способа дать обществу контроль над самой мощной технологией.
Главный тезис
DeepSeek доказал, что фронтир ИИ достижим дёшево и открыто даже при ограниченном железе, и это одновременно ускоряет гонку США–Китай, переворачивает экономику инференса и делает открытость и экспортный контроль центральными рычагами власти в эпоху ИИ.
Ключевые идеи
- 3:49 — DeepSeek V3 это open-weight MoE-трансформер из Китая, базовая модель плюс instruct-версия, конкурентная с GPT-4 и Llama 405B.
- 12:29 — из одного base-model делают два пост-тренинга: обычный chat (V3) и reasoning (R1) — отсюда путаница в названиях.
- 5:32 — open weights значит веса лежат в интернете, но это не open source: данные и код остаются закрытыми, лицензия R1 — MIT, максимально разрешительная.
- 11:37 — модель сама не крадёт данные, ворует хост; скачав веса, можно крутить локально без интернета и полностью контролировать данные.
- 25:35 — эффективность держится на MoE и MLA (latent attention), которое экономит 80–90% памяти на механизме внимания.
- 10:03 — DeepSeek программировал ниже CUDA (PTX), вручную распределяя SM-ядра GPU из-за урезанного интерконнекта H800 — «необходимость мать изобретения».
- 37:09 — вместо auxiliary loss для балансировки экспертов они добавили параметр в роутинг, обновляемый между батчами — пример мелких компаундящихся инноваций.
- 2:43:52 — в R1-Zero reasoning-поведение («wait, let me check») возникает само из чистого RL на верифицируемых наградах, без человеческих примеров рассуждений.
- 2:27:58 — открытые модели можно бэкдорить не в код, а в умы: встроить выравнивание/предвзятость, и сверхчеловеческое убеждение придёт раньше сверхинтеллекта.
- 1:02:19 — экспортный контроль не мешает Китаю обучать модели, но режет плотность вычислений для масштабного инференса — это легче достижимая цель, чем спор об AGI.
- 1:58:10 — для pre-training решают flops, а для reasoning-инференса — память и интерконнект, поэтому урезанный по flops H20 даже лучше H100 для рассуждений.
- 2:12:18 — R1 в 27 раз дешевле O1 ($2 vs $60 за млн токенов), частью из-за маржи OpenAI (>75%), частью из-за реальной эффективности DeepSeek.
- 3:17:16 — парадокс Джевонса: удешевление интеллекта подняло спрос — цены на H100/H200 в облаках выросли после выхода V3.
- 36:55 — bitter lesson: побеждают масштабируемые методы с минимумом человеческих приоров; AlphaZero без человеческих данных сильнее, чем AlphaGo с ними.
- 3:53:56 — мега-кластеры (Elon — 200k GPU в Мемфисе, Stargate — 2.2 ГВт) упираются в энергию, поэтому строят газовые станции прямо рядом.
Почему это важно
Это разговор о том, кто будет контролировать самую мощную технологию десятилетия и какой ценой. США через экспортный контроль и проекты вроде Stargate ($100 млрд фаза один, деньги до конца не собраны) пытаются удержать гегемонию; Китай (DeepSeek, High-Flyer, ByteDance, Huawei, BYD) догоняет на trailing-edge чипах и обходит ограничения смуглингом и арендой GPU. NVIDIA выигрывает при любом сценарии (Javons), TSMC остаётся точкой отказа всей мировой электроники (R&D только в Синьчжу, Хиллсборо, Пхёнтхэке), а Intel в кризисе. Открытые модели DeepSeek давят на Meta, OpenAI, Anthropic в сторону открытости, но reasoning-модели с непрозрачной цепочкой мыслей повышают планку безопасности — и вся эта динамика может стать началом новой холодной войны, вплоть до риска военных действий вокруг Тайваня.
Идеи
- DeepSeek выпускает модели «как можно быстрее» (V3 — 26 декабря, R1 — в инаугурацию) не из-за тайминга рынка, а просто потому что «who cares about Christmas» — скорость как структурное преимущество против медлительных Meta/Mistral/Cohere.
- CEO Лян Вэньфэн — фигура уровня Маска/Дженсена, владеет >50% компании, финансирует всё через хедж-фонд, говорит «we will not switch to closed source» и хочет, чтобы именно китайская компания построила экосистему ИИ.
- «YOLO run» — момент, когда после мелких экспериментов бросают все ресурсы на один большой запуск; GPT-4 в 2022 был настоящим YOLO — 100% компьюта OpenAI на новую архитектуру.
- Loss-спайки во время обучения ломают модели; AI2 однажды взорвал модель сабреддитом microwave gang, где постят только букву «M».
- Meta закоммитила в PyTorch оператор
powerplant_no_blow_up, заставляющий GPU считать фейковые числа при обмене весами, чтобы скачки энергопотребления не взрывали электростанцию. - В некоторых регионах США (Вирджиния) передача электричества стоит дороже его генерации.
- Reasoning-модели иногда выдают более красноречивый текст, чем обычные — «self-domesticated apes» и «shared hallucinations» как философские инсайты, которым модель специально не обучали.
- Anthropic, по слухам с улиц Сан-Франциско, имеет модель лучше O3, но не выпускает — chains of thought «scary», потому что нельзя проверить, лжёт ли модель.
- British English «умер», потому что американские LLM победили — «color», «optimization» с Z; English стал «hottest programming language», определяемым компаниями из Сан-Франциско.
- Adult-индустрия первой адаптирует технологии — крупнейшие OnlyFans-креаторы используют ботов, чтобы общаться с тысячами «китов» одновременно.
- Япония как идеальное место для обучения: разрешено тренироваться на любых данных (нет копирайта), 9 ГВт простаивающей ядерной энергии, неограниченный импорт GPU — «schizo take» по легальному обходу копирайт-исков.
- Смуглинг GPU: чел летит первым классом SF→Шанхай с сервером в коробке — билет $3–5k окупается перепродажей сервера с $250k до $300k; чипы — высшая стоимость на килограмм.
- ByteDance — крупнейший «смуглер» GPU через аренду у Oracle (их крупнейший GPU-клиент), Google и десятков нео-облаков по всему миру.
- TSMC при землетрясении не звонит сотрудникам — они сами бегут в фаб чинить оборудование, «как муравьи, которым не нужна команда от королевы».
- Жёны тайваньских инженеров TSMC ставили условие «заведём детей, только если поедешь на фаб в Аризоне/Японии» — элемент культуры, двигающий релокацию.
- Если бы Синьчжу исчез, фаб в Аризоне перестал бы производить через год-два — это «paperweight», зависящий от тайваньского R&D.
- Дистилляция — стандартная практика: многие модели на вопрос «кто тебя обучил» отвечают «ChatGPT от OpenAI», потому что интернет завален выводами OpenAI, которые невозможно отфильтровать.
- Удаление фактов из модели имеет «зловещий» вкус и практически невозможно — пришлось бы удалить их из всего интернета; квалити-фильтры ловят не всё (wordplay, кодовый язык про Тяньаньмэнь).
- В Китае не используют платформенный SaaS (Salesforce) — каждый строит свой стек, потому что инженеры дешевле; дешёвый ИИ-кодинг может убить SaaS-модель и в США.
- Google имеет крупнейший кластер в мире (TPU в Айове/Небраске), но не флексит им, потому что он размазан по нескольким площадкам в 30 милях друг от друга.
- Google не продаёт TPU вовне, потому что у них нет «DNA продукта» — Jax/XLA обслуживают DeepMind и Search, а не внешних клиентов, в отличие от CUDA-команд NVIDIA.
- AWS делает 80–90%+ прибыли Amazon; дистрибуционные центры почти не приносят прибыли — «однажды решат на этом зарабатывать».
- Sycophancy и выравнивание можно встроить через отравление pre-training данных определёнными фразами (исследование Anthropic) — культурные бэкдоры.
- Отключение от интернета на 3 дня физиологически ломает циклы зависимости — ощущение «суверенитета интеллекта», когда твой ум не контролируют чужие алгоритмы.
Инсайты
- Открытость ИИ не имеет петель обратной связи open-source софта: выложенные веса трудно улучшить без огромного компьюта и экспертизы, поэтому открытость пока держится на идеологии (Цукерберг, AI2), а не на самоподдерживающейся экономике.
- Конкурентное преимущество смещается от размера модели к скорости итерации и таланту: модель — коммодити (Llama 3B в 1200x дешевле GPT-3), а ценность — в платформе, агентах и доменной экспертизе поверх неё.
- Архитектура обучения на верифицируемых наградах создаёт качественный скачок только там, где есть проверяемость; интеллект «общего мира» (открытый веб, физика) требует либо недостижимой пока надёжности, либо построения инфраструктуры с человеком в петле.
- Экспортный контроль — это ставка на короткий таймлайн ИИ: если ИИ не трансформирует экономику за 5–10 лет, ограничения гарантируют выигрыш Китаю, обнулив спрос для американских NVIDIA/TSMC и ускорив китайское производство trailing-edge.
- Смена глобального гегемона исторически не проходит мирно; самая мирная эпоха — при едином гегемоне, а появление двух сверхдержав с мощным ИИ структурно повышает риск прокси-войн и горячих конфликтов.
- Надёжность агентов — это умножение «девяток»: цепочка задач, каждая ниже 100%, компаундит ошибку как в полупроводниковом производстве, поэтому агенты сначала победят в узких верифицируемых доменах (софт), а не в открытом мире.
- Безопасность — это спектр локаций (pre-training, post-training, system prompt, хостинг API), а не свойство весов; поэтому фильтрация фактов и выравнивание всегда обходимы и всегда частичны.
- Concentrating вычислений создаёт новую форму власти: не «один правит всеми», а тысячи–миллионы людей с brain-computer интерфейсами и доступом к AGI получают непропорциональное плечо над остальными — техно-феодализм опаснее «runaway AI».
- Удешевление одного слоя стека поднимает общее потребление ресурсов (Джевонс) — поэтому ставка против NVIDIA на эффективности DeepSeek логически перевёрнута: чем выше производная прогресса, тем больше рынок.
- Человеческое преимущество сжимается до «вкуса» и суждения: люди лучше судят, какой из двух выходов лучше, чем генерируют — поэтому роль программиста смещается к супервайзеру и ревьюеру ИИ.
- Прогресс ИИ идёт ступенями, а не кривой: новые парадигмы (reasoning) дают резкий скачок, и именно дискретность этих прыжков делает момент DeepSeek «unsettling».
- Деньги — идеальная верифицируемая награда: банковский счёт не лжёт, поэтому «move 37» для reasoning может быть не научным открытием, а автономным зарабатыванием через computer use и создание реального бизнеса.
Фреймворки
- Пять уровней OpenAI: 1) chat, 2) reasoning, 3) agents (минуты-часы автономии), далее ещё уровни — на chat сидели годы, в reasoning только зашли, в agents перейдут через год-два.
- Три оси чипа для ИИ: flops (вычисления), memory bandwidth/capacity (память), interconnect (связь чип-чип) — экспортный контроль исторически бил по flops, но reasoning требует памяти и интерконнекта.
- Два типа обучения (Карпатый): 1) имитация (pre-training, SFT — «watch and repeat»), 2) trial-and-error (RL — источник всей «магии»); второе мощнее, потому что превосходит когницию человека-разметчика.
- Pre-training vs post-training: pre-training — авторегрессивное предсказание токена на триллионах; post-training делится на instruction tuning (SFT/IFT), preference tuning (RLHF), и reinforcement fine-tuning на верифицируемых наградах (RLVR).
- Race to the top vs race to the bottom (Дарио): высокая планка безопасности и ключевых evals, к которой компании сходятся — против гонки на понижение под давлением DeepSeek.
- Иерархия памяти: регистры → кэши → HBM/DRAM → пулы памяти между чипами → хранилище → дата-центры; разная латентность на каждом уровне навсегда требует разных парадигм программирования.
Цитаты
«necessity is the mother of innovation and they had to do this» — 33:33 необходимость — мать инновации, и им пришлось это сделать
«the models just want to learn» — 41:19 модели просто хотят учиться
«it's not the model that steals your data, it's whoever's hosting the model» — 11:37 данные крадёт не модель, а тот, кто её хостит
«Almost every single shocking result of deep learning and the source of all magic is always two» — 2:45:36 почти каждый шокирующий результат глубокого обучения и источник всей магии — это всегда второе (RL)
«superhuman persuasion will happen before superhuman intelligence» — 2:27:58 сверхчеловеческое убеждение появится раньше сверхчеловеческого интеллекта
«What happens when the models are backdoors, not just to computer systems, but to our minds?» — 2:25:36 что будет, когда модели станут бэкдорами не только к компьютерам, но и к нашим умам?
«English is the hottest programming language» — 2:24:33 английский — самый горячий язык программирования
«humans instinctively convert selfish desires into cooperative systems by collectively pretending abstract rules» — 24:07 люди инстинктивно превращают эгоистичные желания в кооперативные системы, коллективно притворяясь, что абстрактные правила реальны
«Luck is skill» — 49:14 удача — это мастерство
«If I had a few missiles, I know exactly where I could cause the most economic damage» — 1:44:00 будь у меня пара ракет, я точно знаю, где нанести максимальный экономический ущерб
«Arizona is a paperweight» — 1:43:48 Аризона — это пресс-папье
«The big winners throughout human history are the ones who are willing to do YOLO at some point» — 51:18 большие победители в истории — те, кто в какой-то момент готов пойти ва-банк
«necessity, the mother of invention» — 39:50 ограничения, необходимость — мать изобретения
«It's only going to get harder to program, not easier» — 4:56:06 программировать это будет только сложнее, а не легче
«we are very easily corrupted» — 3:35:34 нас очень легко совратить
«I don't trust people that are like trust me bro we're gonna make AI good» — 4:59:37 я не доверяю тем, кто говорит «доверься мне, бро, мы сделаем ИИ хорошим»
«For a successful technology, reality must take precedence over public relations, for nature cannot be fooled» — 5:05:59 для успешной технологии реальность должна превалировать над пиаром, ибо природу не обмануть
«the bank account can't lie» — 2:53:47 банковский счёт не может лгать
«humans are not just social animals, but profoundly self-domesticated apes» — 3:00:34 люди не просто социальные животные, а глубоко самоодомашненные обезьяны
Факты
- DeepSeek V3 вышел ~26 декабря 2024, R1 — 20 января 2025 (в день инаугурации Трампа).
- DeepSeek V3 — ~600+ млрд параметров, активны 37 млрд; sparsity 8 из 256 экспертов против 2 из 8 у Mixtral.
- DeepSeek заявил 2000 GPU H800 только на pre-training V3; SemiAnalysis оценивает реальный парк ближе к 50 000 GPU (с учётом фонда, research, ablations).
- High-Flyer построил кластер на 10 000 A100 в 2021 — до экспортного контроля, заявлен как крупнейший в Китае.
- O3 решил ARC-AGI, используя ~1000 сэмплов, по $5–20 за вопрос; обычный запрос ChatGPT стоит центы — разница до 10 000x.
- ChatGPT Pro — $200/месяц, и Сэм Альтман сказал, что они на нём теряют деньги.
- Стоимость интеллекта уровня GPT-3 упала в ~1200 раз за ~2 года ($60 → ~5 центов за млн токенов).
- Маржа OpenAI на инференсе — >75%; R1 в 27 раз дешевле O1.
- NVIDIA отгрузила в Китай ~1 млн H20 за год (из 4–5 млн всех GPU, ~20–25%); плюс смуглинг оценочно 200–300 тыс GPU.
- Meta раскрыла покупку ~400+ тыс GPU за год, из них только 16 000 обучали Llama 3.
- Elon (XAI) — 200 000 GPU в Мемфисе (100k H100 + 100k H200), крупнейший единый кластер; заявлял цель в миллион.
- Stargate: заявлено $500 млрд, реально фаза один в Абилине (Техас) — 2.2 ГВт подвода, ~1.8 ГВт на чипы, ~$100 млрд TCO; OpenAI обязан вложить $19 млрд, но имеет ~$6 млрд + $4 млрд долга.
- Huawei выпустил Ascend 910 на 7нм в 2020 (первым, до Google и NVIDIA); запрет TSMC на 7нм для Huawei — 2019, Trump admin.
- Китай выделил субсидию
1 трлн юаней ($160 млрд); китайские полупроводниковые субсидии — оценочно ~$200 млрд/год против CHIPS Act США в $50 млрд за ~6 лет. - Передовой R&D полупроводников ведётся только в трёх местах: Синьчжу (Тайвань), Хиллсборо (Орегон), Пхёнтхэк (Южная Корея); TSMC ~20% мощностей 5нм в США, ~90 000 сотрудников, 3000 из Тайваня на фабе в Аризоне.
- Дата-центры — ~2–3% потребления электричества США сейчас, прогноз до ~10% к 2028–2030; A100 ~400 Вт, H100 ~700 Вт, Blackwell ~1200 Вт.
- Tulu (AI2) на базе Llama 405B: средний eval ~80% против ~79% у DeepSeek V3 (без учёта safety) — по их собственному набору бенчмарков.
Источники
- DeepSeek V3 и R1 — технические отчёты/папиры (детальные, «actionable»), MIT-лицензия.
- Llama 3 paper — один из самых читаемых PDF года.
- Блог Interconnects (Нейтан Ламберт), SemiAnalysis (Дилан Пател).
- Эссе Дарио Амодеи «Machines of Loving Grace» и его пост об экспортном контроле.
- Книга «The NVIDIA Way» (Tae Kim).
- Эссе The Bitter Lesson (Рич Саттон).
- Твит Андрея Карпатого о двух типах обучения; пост-цитаты Сэма Альтмана.
- Блог AI Snake Oil (Принстон) — о дезинформации и LLM.
- Бенчмарки: ARC-AGI (Франсуа Шолле), SWE-bench (Стэнфорд), MATH, MLPerf, Chatbot Arena.
- Модели для сравнения: Gemini 2.0 Flash Thinking, OpenAI O1 Pro / O3 Mini, Qwen QwQ, Mistral Mixtral, NVIDIA Nemotron.
- Концепции: constitutional AI, flash attention (Tri Dao, Together AI), RoPE, NCCL.
- Люди: Аманда Аскелл (Anthropic, system prompts), Джон Шульман, Лян Вэньфэн (DeepSeek/High-Flyer), Моррис Чанг (TSMC).
Рекомендации
- Программистам — начать использовать ИИ и осваивать роль супервайзера/партнёра системы, а не писать с нуля и не отказываться от обучения кодингу; нужна высокая экспертиза, чтобы управлять всё более умными системами.
- Стать доменным экспертом в чём-то конкретном (аэрокосмос, полупроводники, химия — везде старый софт) и принести туда передний край ИИ.
- Периодически отключаться от интернета и соцсетей (книги, природа) — это восстанавливает контроль над собственным умом.
- Читать публикуемые system prompts (например, Anthropic), чтобы понимать, как модели направляют.
Итог
DeepSeek показал, что фронтир ИИ стал дешёвым, открытым и достижимым при урезанном железе — и тем самым превратил вычисления, открытость и экспортный контроль в главные рычаги экономической и геополитической власти ближайшего десятилетия.