DeepSeek, Китай, OpenAI, NVIDIA, xAI, TSMC, Stargate и мегакластеры ИИ | Подкаст Лекса Фридмана #459

Lex Fridman3 февраля 20252 109 84528 50314 мин чтениясегодня, 11:51

Коротко

Разговор Лекса Фридмана с Дилана Пателом (SemiAnalysis) и Нейтаном Ламбертом (Allen Institute) разбирает «момент DeepSeek»: китайская лаборатория при хедж-фонде High-Flyer выпустила открытую MoE-модель DeepSeek V3 и reasoning-модель R1 с дешёвым обучением и инференсом, что обрушило акции NVIDIA на иррациональной панике, хотя по тренду удешевления интеллекта DeepSeek не ниже кривой. Технически прорыв держится на двух вещах — mixture of experts с высокой sparsity (8 из 256 экспертов) и собственном внимании MLA (multi-head latent attention), плюс программирование ниже уровня CUDA (PTX, ручное распределение SM) из-за урезанных H800. Главный геополитический сюжет — экспортный контроль: США кнекапят плотность вычислений в Китае, ставка на то, что AI изменит экономику за 5–10 лет, иначе ограничения только ускорят Китай. Reasoning-модели смещают нагрузку с обучения на test-time compute и память (KV-cache), а будущий рост — в RL на верифицируемых задачах (математика, код, в перспективе computer use и робототехника). Спикеры — оптимисты по NVIDIA и сторонники открытых моделей как способа дать обществу контроль над самой мощной технологией.

Главный тезис

DeepSeek доказал, что фронтир ИИ достижим дёшево и открыто даже при ограниченном железе, и это одновременно ускоряет гонку США–Китай, переворачивает экономику инференса и делает открытость и экспортный контроль центральными рычагами власти в эпоху ИИ.

Ключевые идеи

  • 3:49DeepSeek V3 это open-weight MoE-трансформер из Китая, базовая модель плюс instruct-версия, конкурентная с GPT-4 и Llama 405B.
  • 12:29 — из одного base-model делают два пост-тренинга: обычный chat (V3) и reasoning (R1) — отсюда путаница в названиях.
  • 5:32open weights значит веса лежат в интернете, но это не open source: данные и код остаются закрытыми, лицензия R1 — MIT, максимально разрешительная.
  • 11:37 — модель сама не крадёт данные, ворует хост; скачав веса, можно крутить локально без интернета и полностью контролировать данные.
  • 25:35 — эффективность держится на MoE и MLA (latent attention), которое экономит 80–90% памяти на механизме внимания.
  • 10:03 — DeepSeek программировал ниже CUDA (PTX), вручную распределяя SM-ядра GPU из-за урезанного интерконнекта H800 — «необходимость мать изобретения».
  • 37:09 — вместо auxiliary loss для балансировки экспертов они добавили параметр в роутинг, обновляемый между батчами — пример мелких компаундящихся инноваций.
  • 2:43:52 — в R1-Zero reasoning-поведение («wait, let me check») возникает само из чистого RL на верифицируемых наградах, без человеческих примеров рассуждений.
  • 2:27:58 — открытые модели можно бэкдорить не в код, а в умы: встроить выравнивание/предвзятость, и сверхчеловеческое убеждение придёт раньше сверхинтеллекта.
  • 1:02:19экспортный контроль не мешает Китаю обучать модели, но режет плотность вычислений для масштабного инференса — это легче достижимая цель, чем спор об AGI.
  • 1:58:10 — для pre-training решают flops, а для reasoning-инференса — память и интерконнект, поэтому урезанный по flops H20 даже лучше H100 для рассуждений.
  • 2:12:18R1 в 27 раз дешевле O1 ($2 vs $60 за млн токенов), частью из-за маржи OpenAI (>75%), частью из-за реальной эффективности DeepSeek.
  • 3:17:16парадокс Джевонса: удешевление интеллекта подняло спрос — цены на H100/H200 в облаках выросли после выхода V3.
  • 36:55bitter lesson: побеждают масштабируемые методы с минимумом человеческих приоров; AlphaZero без человеческих данных сильнее, чем AlphaGo с ними.
  • 3:53:56 — мега-кластеры (Elon — 200k GPU в Мемфисе, Stargate — 2.2 ГВт) упираются в энергию, поэтому строят газовые станции прямо рядом.

Почему это важно

Это разговор о том, кто будет контролировать самую мощную технологию десятилетия и какой ценой. США через экспортный контроль и проекты вроде Stargate ($100 млрд фаза один, деньги до конца не собраны) пытаются удержать гегемонию; Китай (DeepSeek, High-Flyer, ByteDance, Huawei, BYD) догоняет на trailing-edge чипах и обходит ограничения смуглингом и арендой GPU. NVIDIA выигрывает при любом сценарии (Javons), TSMC остаётся точкой отказа всей мировой электроники (R&D только в Синьчжу, Хиллсборо, Пхёнтхэке), а Intel в кризисе. Открытые модели DeepSeek давят на Meta, OpenAI, Anthropic в сторону открытости, но reasoning-модели с непрозрачной цепочкой мыслей повышают планку безопасности — и вся эта динамика может стать началом новой холодной войны, вплоть до риска военных действий вокруг Тайваня.

Идеи

  • DeepSeek выпускает модели «как можно быстрее» (V3 — 26 декабря, R1 — в инаугурацию) не из-за тайминга рынка, а просто потому что «who cares about Christmas» — скорость как структурное преимущество против медлительных Meta/Mistral/Cohere.
  • CEO Лян Вэньфэн — фигура уровня Маска/Дженсена, владеет >50% компании, финансирует всё через хедж-фонд, говорит «we will not switch to closed source» и хочет, чтобы именно китайская компания построила экосистему ИИ.
  • «YOLO run» — момент, когда после мелких экспериментов бросают все ресурсы на один большой запуск; GPT-4 в 2022 был настоящим YOLO — 100% компьюта OpenAI на новую архитектуру.
  • Loss-спайки во время обучения ломают модели; AI2 однажды взорвал модель сабреддитом microwave gang, где постят только букву «M».
  • Meta закоммитила в PyTorch оператор powerplant_no_blow_up, заставляющий GPU считать фейковые числа при обмене весами, чтобы скачки энергопотребления не взрывали электростанцию.
  • В некоторых регионах США (Вирджиния) передача электричества стоит дороже его генерации.
  • Reasoning-модели иногда выдают более красноречивый текст, чем обычные — «self-domesticated apes» и «shared hallucinations» как философские инсайты, которым модель специально не обучали.
  • Anthropic, по слухам с улиц Сан-Франциско, имеет модель лучше O3, но не выпускает — chains of thought «scary», потому что нельзя проверить, лжёт ли модель.
  • British English «умер», потому что американские LLM победили — «color», «optimization» с Z; English стал «hottest programming language», определяемым компаниями из Сан-Франциско.
  • Adult-индустрия первой адаптирует технологии — крупнейшие OnlyFans-креаторы используют ботов, чтобы общаться с тысячами «китов» одновременно.
  • Япония как идеальное место для обучения: разрешено тренироваться на любых данных (нет копирайта), 9 ГВт простаивающей ядерной энергии, неограниченный импорт GPU — «schizo take» по легальному обходу копирайт-исков.
  • Смуглинг GPU: чел летит первым классом SF→Шанхай с сервером в коробке — билет $3–5k окупается перепродажей сервера с $250k до $300k; чипы — высшая стоимость на килограмм.
  • ByteDance — крупнейший «смуглер» GPU через аренду у Oracle (их крупнейший GPU-клиент), Google и десятков нео-облаков по всему миру.
  • TSMC при землетрясении не звонит сотрудникам — они сами бегут в фаб чинить оборудование, «как муравьи, которым не нужна команда от королевы».
  • Жёны тайваньских инженеров TSMC ставили условие «заведём детей, только если поедешь на фаб в Аризоне/Японии» — элемент культуры, двигающий релокацию.
  • Если бы Синьчжу исчез, фаб в Аризоне перестал бы производить через год-два — это «paperweight», зависящий от тайваньского R&D.
  • Дистилляция — стандартная практика: многие модели на вопрос «кто тебя обучил» отвечают «ChatGPT от OpenAI», потому что интернет завален выводами OpenAI, которые невозможно отфильтровать.
  • Удаление фактов из модели имеет «зловещий» вкус и практически невозможно — пришлось бы удалить их из всего интернета; квалити-фильтры ловят не всё (wordplay, кодовый язык про Тяньаньмэнь).
  • В Китае не используют платформенный SaaS (Salesforce) — каждый строит свой стек, потому что инженеры дешевле; дешёвый ИИ-кодинг может убить SaaS-модель и в США.
  • Google имеет крупнейший кластер в мире (TPU в Айове/Небраске), но не флексит им, потому что он размазан по нескольким площадкам в 30 милях друг от друга.
  • Google не продаёт TPU вовне, потому что у них нет «DNA продукта» — Jax/XLA обслуживают DeepMind и Search, а не внешних клиентов, в отличие от CUDA-команд NVIDIA.
  • AWS делает 80–90%+ прибыли Amazon; дистрибуционные центры почти не приносят прибыли — «однажды решат на этом зарабатывать».
  • Sycophancy и выравнивание можно встроить через отравление pre-training данных определёнными фразами (исследование Anthropic) — культурные бэкдоры.
  • Отключение от интернета на 3 дня физиологически ломает циклы зависимости — ощущение «суверенитета интеллекта», когда твой ум не контролируют чужие алгоритмы.

Инсайты

  • Открытость ИИ не имеет петель обратной связи open-source софта: выложенные веса трудно улучшить без огромного компьюта и экспертизы, поэтому открытость пока держится на идеологии (Цукерберг, AI2), а не на самоподдерживающейся экономике.
  • Конкурентное преимущество смещается от размера модели к скорости итерации и таланту: модель — коммодити (Llama 3B в 1200x дешевле GPT-3), а ценность — в платформе, агентах и доменной экспертизе поверх неё.
  • Архитектура обучения на верифицируемых наградах создаёт качественный скачок только там, где есть проверяемость; интеллект «общего мира» (открытый веб, физика) требует либо недостижимой пока надёжности, либо построения инфраструктуры с человеком в петле.
  • Экспортный контроль — это ставка на короткий таймлайн ИИ: если ИИ не трансформирует экономику за 5–10 лет, ограничения гарантируют выигрыш Китаю, обнулив спрос для американских NVIDIA/TSMC и ускорив китайское производство trailing-edge.
  • Смена глобального гегемона исторически не проходит мирно; самая мирная эпоха — при едином гегемоне, а появление двух сверхдержав с мощным ИИ структурно повышает риск прокси-войн и горячих конфликтов.
  • Надёжность агентов — это умножение «девяток»: цепочка задач, каждая ниже 100%, компаундит ошибку как в полупроводниковом производстве, поэтому агенты сначала победят в узких верифицируемых доменах (софт), а не в открытом мире.
  • Безопасность — это спектр локаций (pre-training, post-training, system prompt, хостинг API), а не свойство весов; поэтому фильтрация фактов и выравнивание всегда обходимы и всегда частичны.
  • Concentrating вычислений создаёт новую форму власти: не «один правит всеми», а тысячи–миллионы людей с brain-computer интерфейсами и доступом к AGI получают непропорциональное плечо над остальными — техно-феодализм опаснее «runaway AI».
  • Удешевление одного слоя стека поднимает общее потребление ресурсов (Джевонс) — поэтому ставка против NVIDIA на эффективности DeepSeek логически перевёрнута: чем выше производная прогресса, тем больше рынок.
  • Человеческое преимущество сжимается до «вкуса» и суждения: люди лучше судят, какой из двух выходов лучше, чем генерируют — поэтому роль программиста смещается к супервайзеру и ревьюеру ИИ.
  • Прогресс ИИ идёт ступенями, а не кривой: новые парадигмы (reasoning) дают резкий скачок, и именно дискретность этих прыжков делает момент DeepSeek «unsettling».
  • Деньги — идеальная верифицируемая награда: банковский счёт не лжёт, поэтому «move 37» для reasoning может быть не научным открытием, а автономным зарабатыванием через computer use и создание реального бизнеса.

Фреймворки

  • Пять уровней OpenAI: 1) chat, 2) reasoning, 3) agents (минуты-часы автономии), далее ещё уровни — на chat сидели годы, в reasoning только зашли, в agents перейдут через год-два.
  • Три оси чипа для ИИ: flops (вычисления), memory bandwidth/capacity (память), interconnect (связь чип-чип) — экспортный контроль исторически бил по flops, но reasoning требует памяти и интерконнекта.
  • Два типа обучения (Карпатый): 1) имитация (pre-training, SFT — «watch and repeat»), 2) trial-and-error (RL — источник всей «магии»); второе мощнее, потому что превосходит когницию человека-разметчика.
  • Pre-training vs post-training: pre-training — авторегрессивное предсказание токена на триллионах; post-training делится на instruction tuning (SFT/IFT), preference tuning (RLHF), и reinforcement fine-tuning на верифицируемых наградах (RLVR).
  • Race to the top vs race to the bottom (Дарио): высокая планка безопасности и ключевых evals, к которой компании сходятся — против гонки на понижение под давлением DeepSeek.
  • Иерархия памяти: регистры → кэши → HBM/DRAM → пулы памяти между чипами → хранилище → дата-центры; разная латентность на каждом уровне навсегда требует разных парадигм программирования.

Цитаты

«necessity is the mother of innovation and they had to do this» — 33:33 необходимость — мать инновации, и им пришлось это сделать

«the models just want to learn» — 41:19 модели просто хотят учиться

«it's not the model that steals your data, it's whoever's hosting the model» — 11:37 данные крадёт не модель, а тот, кто её хостит

«Almost every single shocking result of deep learning and the source of all magic is always two» — 2:45:36 почти каждый шокирующий результат глубокого обучения и источник всей магии — это всегда второе (RL)

«superhuman persuasion will happen before superhuman intelligence» — 2:27:58 сверхчеловеческое убеждение появится раньше сверхчеловеческого интеллекта

«What happens when the models are backdoors, not just to computer systems, but to our minds?» — 2:25:36 что будет, когда модели станут бэкдорами не только к компьютерам, но и к нашим умам?

«English is the hottest programming language» — 2:24:33 английский — самый горячий язык программирования

«humans instinctively convert selfish desires into cooperative systems by collectively pretending abstract rules» — 24:07 люди инстинктивно превращают эгоистичные желания в кооперативные системы, коллективно притворяясь, что абстрактные правила реальны

«Luck is skill» — 49:14 удача — это мастерство

«If I had a few missiles, I know exactly where I could cause the most economic damage» — 1:44:00 будь у меня пара ракет, я точно знаю, где нанести максимальный экономический ущерб

«Arizona is a paperweight» — 1:43:48 Аризона — это пресс-папье

«The big winners throughout human history are the ones who are willing to do YOLO at some point» — 51:18 большие победители в истории — те, кто в какой-то момент готов пойти ва-банк

«necessity, the mother of invention» — 39:50 ограничения, необходимость — мать изобретения

«It's only going to get harder to program, not easier» — 4:56:06 программировать это будет только сложнее, а не легче

«we are very easily corrupted» — 3:35:34 нас очень легко совратить

«I don't trust people that are like trust me bro we're gonna make AI good» — 4:59:37 я не доверяю тем, кто говорит «доверься мне, бро, мы сделаем ИИ хорошим»

«For a successful technology, reality must take precedence over public relations, for nature cannot be fooled» — 5:05:59 для успешной технологии реальность должна превалировать над пиаром, ибо природу не обмануть

«the bank account can't lie» — 2:53:47 банковский счёт не может лгать

«humans are not just social animals, but profoundly self-domesticated apes» — 3:00:34 люди не просто социальные животные, а глубоко самоодомашненные обезьяны

Факты

  • DeepSeek V3 вышел ~26 декабря 2024, R1 — 20 января 2025 (в день инаугурации Трампа).
  • DeepSeek V3 — ~600+ млрд параметров, активны 37 млрд; sparsity 8 из 256 экспертов против 2 из 8 у Mixtral.
  • DeepSeek заявил 2000 GPU H800 только на pre-training V3; SemiAnalysis оценивает реальный парк ближе к 50 000 GPU (с учётом фонда, research, ablations).
  • High-Flyer построил кластер на 10 000 A100 в 2021 — до экспортного контроля, заявлен как крупнейший в Китае.
  • O3 решил ARC-AGI, используя ~1000 сэмплов, по $5–20 за вопрос; обычный запрос ChatGPT стоит центы — разница до 10 000x.
  • ChatGPT Pro — $200/месяц, и Сэм Альтман сказал, что они на нём теряют деньги.
  • Стоимость интеллекта уровня GPT-3 упала в ~1200 раз за ~2 года ($60 → ~5 центов за млн токенов).
  • Маржа OpenAI на инференсе — >75%; R1 в 27 раз дешевле O1.
  • NVIDIA отгрузила в Китай ~1 млн H20 за год (из 4–5 млн всех GPU, ~20–25%); плюс смуглинг оценочно 200–300 тыс GPU.
  • Meta раскрыла покупку ~400+ тыс GPU за год, из них только 16 000 обучали Llama 3.
  • Elon (XAI) — 200 000 GPU в Мемфисе (100k H100 + 100k H200), крупнейший единый кластер; заявлял цель в миллион.
  • Stargate: заявлено $500 млрд, реально фаза один в Абилине (Техас) — 2.2 ГВт подвода, ~1.8 ГВт на чипы, ~$100 млрд TCO; OpenAI обязан вложить $19 млрд, но имеет ~$6 млрд + $4 млрд долга.
  • Huawei выпустил Ascend 910 на 7нм в 2020 (первым, до Google и NVIDIA); запрет TSMC на 7нм для Huawei — 2019, Trump admin.
  • Китай выделил субсидию 1 трлн юаней ($160 млрд); китайские полупроводниковые субсидии — оценочно ~$200 млрд/год против CHIPS Act США в $50 млрд за ~6 лет.
  • Передовой R&D полупроводников ведётся только в трёх местах: Синьчжу (Тайвань), Хиллсборо (Орегон), Пхёнтхэк (Южная Корея); TSMC ~20% мощностей 5нм в США, ~90 000 сотрудников, 3000 из Тайваня на фабе в Аризоне.
  • Дата-центры — ~2–3% потребления электричества США сейчас, прогноз до ~10% к 2028–2030; A100 ~400 Вт, H100 ~700 Вт, Blackwell ~1200 Вт.
  • Tulu (AI2) на базе Llama 405B: средний eval ~80% против ~79% у DeepSeek V3 (без учёта safety) — по их собственному набору бенчмарков.

Источники

  • DeepSeek V3 и R1 — технические отчёты/папиры (детальные, «actionable»), MIT-лицензия.
  • Llama 3 paper — один из самых читаемых PDF года.
  • Блог Interconnects (Нейтан Ламберт), SemiAnalysis (Дилан Пател).
  • Эссе Дарио Амодеи «Machines of Loving Grace» и его пост об экспортном контроле.
  • Книга «The NVIDIA Way» (Tae Kim).
  • Эссе The Bitter Lesson (Рич Саттон).
  • Твит Андрея Карпатого о двух типах обучения; пост-цитаты Сэма Альтмана.
  • Блог AI Snake Oil (Принстон) — о дезинформации и LLM.
  • Бенчмарки: ARC-AGI (Франсуа Шолле), SWE-bench (Стэнфорд), MATH, MLPerf, Chatbot Arena.
  • Модели для сравнения: Gemini 2.0 Flash Thinking, OpenAI O1 Pro / O3 Mini, Qwen QwQ, Mistral Mixtral, NVIDIA Nemotron.
  • Концепции: constitutional AI, flash attention (Tri Dao, Together AI), RoPE, NCCL.
  • Люди: Аманда Аскелл (Anthropic, system prompts), Джон Шульман, Лян Вэньфэн (DeepSeek/High-Flyer), Моррис Чанг (TSMC).

Рекомендации

  • Программистам — начать использовать ИИ и осваивать роль супервайзера/партнёра системы, а не писать с нуля и не отказываться от обучения кодингу; нужна высокая экспертиза, чтобы управлять всё более умными системами.
  • Стать доменным экспертом в чём-то конкретном (аэрокосмос, полупроводники, химия — везде старый софт) и принести туда передний край ИИ.
  • Периодически отключаться от интернета и соцсетей (книги, природа) — это восстанавливает контроль над собственным умом.
  • Читать публикуемые system prompts (например, Anthropic), чтобы понимать, как модели направляют.

Итог

DeepSeek показал, что фронтир ИИ стал дешёвым, открытым и достижимым при урезанном железе — и тем самым превратил вычисления, открытость и экспортный контроль в главные рычаги экономической и геополитической власти ближайшего десятилетия.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Lex Fridman»

Все видео