Коротко
Разговор Лекса Фридмана с Себастьяном Рашкой и Нейтаном Ламбертом о состоянии ИИ на входе в 2026 год: год после «момента DeepSeek» конкуренция стала бешеной, явного победителя нет ни на уровне идей, ни технологий. Технологии не проприетарны: исследователи постоянно перетекают между лабами, разница теперь в бюджете, железе и культуре организации, где Anthropic выглядит наименее хаотичной и выигрывает ставкой на код. Китайские open-weight модели (DeepSeek, Qwen, Kimi, GLM, Minimax) расплодились и отобрали корону у DeepSeek, но американские закрытые модели пока умнее, и за этот интеллект люди готовы платить. Архитектурно почти ничего не поменялось со времён GPT-2 (тот же авторегрессивный трансформер), весь прогресс идёт в данных, системах, mid-training и особенно в RL с проверяемыми наградами и inference-time scaling. Спикеры сходятся: скейлинг во всех формах жив, а вот AGI/ASI-пороги бесполезны, реального рывка в ВВП пока нет, и «единая модель на всё» как мечта умирает в пользу множества специализированных агентов.
Главный тезис
Идеи в ИИ текут свободно и не дают монополии: выигрывают те, у кого лучше данные, железо, культура и умение довести продукт до пользователя. Прогресс не в новых архитектурах, а в скейлинге данных, систем и пост-обучения, и он далеко не исчерпан.
Ключевые идеи
- 3:13: в 2026 ни у кого нет технологии, недоступной остальным: исследователи ротируются между лабами, идеи не проприетарны, разница только в бюджете и железе.
- 5:05: Anthropic выигрывает ставкой на код (Claude Code) и репутацией наименее хаотичной культуры; в мире, где идеи свободны, узкое место это человеческие усилия и организация.
- 5:48: DeepSeek теряет корону главного open-модельщика Китая: GLM от Z.ai, Minimax, Kimi Moonshot засветились ярче, хотя новые модели DeepSeek всё ещё сильны.
- 6:20: китайцы делают модели open-weight, потому что вне США за софт мало платят, а западные компании из соображений безопасности не купят API у китайцев; открытые веса это способ влезть в растущий рынок ИИ-расходов.
- 19:25: люди пользуются одной LLM по инерции и бренду, пока она не сломается на конкретной задаче, а потом переключаются, как с браузерами.
- 21:28: про китайские модели с точки зрения использования никто не вспомнил: американские пока умнее, и за маржинальный интеллект платят, даже если open-модели дешевле.
- 23:28: Claude Code это лучшая утилизация Opus 4.5: те же веса, но агентная обёртка ощутимо мощнее, чем в Cursor или VS Code.
- 44:01: от GPT-2 до сегодня архитектура фундаментально не изменилась: mixture of experts, разные варианты внимания (MLA, GQA, sliding window) это твики, а не новая парадигма.
- 44:50: весь прогресс сместился из архитектуры в данные, системы (FP8/FP4), mid-training и post-training: те же слои, но кодовая база обучения радикально другая.
- 49:43: RLVR (популяризован DeepSeek R1) главный прорыв 2025: модель генерирует ответ, его проверяют на правильность, и это масштабируется как inference-time scaling.
- 49:41: скейлинг работает во всех формах (pre-, RL, inference), но низко висящие фрукты сорваны; pre-training не мёртв, просто дорог, а другие способы скейла сейчас привлекательнее.
- 52:27: обучить модель стоит $1–10 млн, но обслуживание сотен миллионов юзеров это миллиарды, поэтому модели делают меньше, а не больше.
- 1:04:51: синтетические данные это не выдумки ИИ, а переписанные/структурированные тексты (OCR из PDF, перефразировки), которые учат модель быстрее при том же качестве.
- 1:23:29: RLHF усредняет обратную связь многих людей, поэтому моделям трудно быть острыми и иметь «голос»; это структурный, нерешаемый узел.
- 2:18:46: выбор карьеры (академия / open-лаба / закрытый фронтир / стартап) сводится к тому, любишь ли ты публиковаться или сидеть в закрытом; закрытое всегда платило больше, изменился только масштаб.
Почему это важно
Это карта того, кто и за счёт чего будет делить триллионный рынок ИИ. Anthropic забирает код и энтерпрайз, Google давит масштабом и собственным железом (TPU против маржи Nvidia), OpenAI остаётся хаотичным, но лучшим в «приземлении» новых идей, а китайские лаборатории через open-weight культивируют международное влияние, которое замечают и правительства. Nvidia держится не чипом, а экосистемой CUDA, копившейся два десятилетия. На кону не только деньги: открытые модели это двигатель исследований и обучения следующего поколения, поэтому Ламберт лично двигает Atom Project (американские по-настоящему открытые модели), чтобы исследования происходили в США, а не строились на Qwen. Проигрывают те, кто просто продаёт LLM-API без продукта и железа: их могут выдавить, как выдавливают в API-рынке AWS, Azure, GCP.
Идеи
- Gemini 3 вышел до Opus 4.5 с огромным маркетинговым вау, но о нём быстро забыли, хотя модель отличная: дифференциация упала.
- Хайп вокруг Opus 4.5 частично это эхо-камера X/Twitter, а реальная массовая база сидит на ChatGPT и Gemini для бытовых задач.
- Люди заводят две подписки: одну «чистую» для работы без личных данных, другую личную: граница приватного и рабочего.
- Router в GPT-5 это скрытая фича экономии: большинство юзеров больше не жгут дорогой GPU-инференс.
- Ламберт держит по пять pro-запросов одновременно, каждый ищет одну конкретную статью или проверяет уравнение.
- Бытовой пример скорости: жена уже в машине, GPU случайно выдернут, нужен bash-скрипт за 10 секунд: non-thinking модель как экстренный инструмент.
- Разные модели под разные задачи: Gemini для «иголки в стоге», Grok 4 Heavy для хардкорного дебага, Claude Opus для кода и философии, Grok для реалтайма из твиттера.
- «Момент озарения» R1 (модель ловит свою ошибку и переделывает) может быть фейком: в pre-training она видела транскрипты, где люди так делают, а RL просто это усиливает.
- Данные Qwen подозревают в контаминации: меняешь числа в задаче, оставляешь слова, модель выдаёт подозрительно точный десятичный ответ без инструментов.
- Единственный честный способ оценить LLM: бенчмарк, созданный после даты обучения модели (как CASP в предсказании структуры белка).
- Anthropic проиграл в суде $1.5 млрд авторам именно за торрент-книги, хотя купленные и отсканированные книги суд признал легальными.
- Люди эмоционально привязываются к весам модели: пишут сотрудникам OpenAI ночью, что «мой друг стал другим», уловив тонкие изменения в деплое.
- LLM «схватывает» тебя за пять минут разговора, как TikTok за пять минут листания, и это то, к чему общество не готово, особенно для детей.
- Журналисты будут связывать суициды с LLM (у них есть логи переписок), и компании из-за юридических рисков будут всё сильнее «стачивать острые углы» до генерик-состояния.
- Джуниоры используют меньше ИИ-кода в продакшене, чем сеньоры: контринтуитивно, эксперты эффективнее применяют и доверяют коду, который проверяют.
- Debugging с LLM это «глоток воды после четырёх дней в пустыне»: пропускаешь всю пустыню страдания, но теряешь радость самому найти баг.
- Culture 996 (9 утра–9 вечера, 6 дней) пришла из Китая в Долину; в книге про Apple в Китае были «программы спасения брака», люди умирали от переработок.
- Профессора на среднем счастливее сотрудников фронтир-лаб: у них заземление, студенты, менторство, миссия.
- Мем SF «permanent underclass»: последние полгода 2025 якобы единственное окно построить ценность в ИИ-стартапе: пример того, как далеко заходит пузырь.
- Recursive language model: разбить длинный контекст на подзадачи и рекурсивно вызывать LLM: точность выше, чем решать всё за один проход (в статье всё делали на GPT-5).
- DeepSeek 3.2 использует sparse attention с лёгким индексатором, который выбирает нужные токены вместо внимания ко всем: возврат к исходной идее селективности.
- Cursor Composer это файнтюн большой китайской MoE (иногда отвечает по-китайски), и они обновляют веса каждые 90 минут по реальному фидбеку юзеров: ближайшее к real-world RL.
- Meta провалила Llama 4, гоняясь за верхушкой бенчмарков вместо маленьких моделей, которые люди могут запускать; open-source сообщество ответило хейтом, и Meta пересмотрела отношение к открытости.
- Вера Рубин от Nvidia: чип с малой high-bandwidth памятью специально под prefill-часть инференса, разделение железа для обучения и инференса.
- Manus AI основан 8 месяцев назад и вышел с оценкой $2 млрд: премия на ИИ-стартапы бешеная.
- Watermark наоборот: помечать всё человеческое (фото до редактирования) через связь софта с производителем устройства, а не пытаться метить ИИ-картинки.
Инсайты
- Отсутствие технологических рвов превращает конкуренцию в гонку исполнения: побеждает культура, скорость итераций и умение приземлить продукт, а не секретный алгоритм.
- Экономика инференса, а не обучения, диктует форму моделей: раз обслуживание дороже тренировки на порядки, индустрия давится в сторону меньших моделей и роутеров.
- Открытость это геополитический и образовательный инструмент, а не благотворительность: кто раздаёт веса, тот формирует, на чём учится следующее поколение и где происходят исследования.
- Обучение на человеческом фидбеке создаёт структурный bias к угождению и усреднению: «голос» и острота приносятся в жертву полезности, и это математически, а не случайно.
- Прогресс в ИИ давно не в архитектуре, а в данных и системах: одна и та же схема работает как каркас, вся турбулентность ушла в невидимые слои (data mix, FP8, mid-training).
- RL раскрывает уже имеющиеся в pre-training навыки, а не вкладывает новые знания: отсюда быстрые скачки точности и репутация RLVR как «про форматирование».
- У RLHF нет закона масштабирования, у RLVR есть: это переопределяет, куда лаборатории льют вычисления. Preference-tuning насыщается, а verifiable rewards тянутся дальше.
- Ценность человека в цикле ИИ-генерации не в объёме, а в верификации и вкусе: даже маленький слой человеческой проверки качественно отличает данные от сырого слопа.
- Обучение требует продуктивного страдания, и вездесущая LLM угрожает не знанию, а самому механизму его усвоения: отсюда возврат к blue books и устным экзаменам.
- Пузыри в ИИ бывают двух видов: продуктивные (двигают стройку и искажают реальность в свою пользу) и финансовые (чистая спекуляция); опасен переход первого во второй.
- Мечта о единой модели-на-всё умирает: будущее это множество специализированных агентов, что смещает ценность с самой модели на интеграции и оркестрацию.
- Jagged-природа ИИ делает «полноту» вроде superhuman coder недостижимой: модель сверхчеловечна в одном и туповата в другом, люди навсегда останутся заполнять пробелы.
- Скептицизм программистов к ИИ это часто не предел модели, а human skill issue и недоспецификация: тот же spec-driven подход, что и в человеческой коммуникации.
- Реклама это долгосрочная ставка на маховик: кто первым запустит, соберёт больше денег на R&D и лучшие модели, но первым страшно из-за репутации и незрелости решения.
- Сингулярные фигуры (Jensen, Jobs, Ilya, Demis) не меняют неизбежность прогресса, но фокусируют и ускоряют его на десятилетия, как ETF против отдельной акции.
Фреймворки
Три оси скейлинга (Ламберт):
- Pre-training scaling: размер модели и датасета, степенной закон между compute+data и точностью предсказания.
- RL scaling: как долго идёт обучение методом проб и ошибок (RLVR), лог-компьют → линейный рост качества.
- Inference-time scaling: сколько токенов модель тратит на конкретную задачу перед ответом.
Иерархия стадий обучения:
- Pre-training: впитывание знаний, next-token prediction на огромном корпусе (триллионы токенов), самая дорогая часть.
- Mid-training: даёт скиллы (reasoning traces, long context) перед пост-обучением; отдельная фаза из-за нехватки длинноконтекстных документов и катастрофического забывания.
- Post-training: раскрытие навыков: SFT, RLVR (пробы на проверяемых задачах), RLHF как финишная отделка стиля и тона.
Милстоуны AI-2027 (по Лексу): superhuman coder → superhuman AI researcher → superintelligent AI researcher → ASI; после первого шага остальное падает быстро. Прогноз сдвинут с 2027–28 на ~2031.
Dense vs sparse: dense, один полносвязный модуль, всегда активен; sparse (MoE), много экспертов, роутер активирует лишь несколько, больше знаний без роста compute на forward pass.
Цитаты
«I don't think there will be a clear winner in terms of technology access. However, I do think the differentiating factor will be budget and hardware constraints», 3:32 Не думаю, что будет явный победитель по доступу к технологиям. Но дифференцирующим фактором станут бюджет и ограничения по железу
«DeepSeek is kind of losing its crown as the preeminent open model maker in China», 5:48 DeepSeek вроде как теряет корону главного создателя открытых моделей в Китае
«You use it until it breaks, until you have a problem and then you change the LM», 19:25 Ты пользуешься ей, пока она не сломается, пока не упрёшься в проблему, и тогда меняешь модель
«It doesn't lie. It's math, basically», 24:54 Код не лжёт. По сути это математика
«The most recent model is probably always the best model», 8:26 Самая свежая модель почти всегда лучшая
«I still think most of the compute is going in at pre-training because you can still make a model better», 56:36 Я всё ещё думаю, что большая часть вычислений идёт в pre-training, потому что модель ещё можно улучшить
«It's held for 13 orders of magnitude of computers or something. Like why would it ever end?», 54:36 Это держалось для 13 порядков вычислений. С чего бы этому вообще заканчиваться?
«One of the best ways to solve hallucinations is to not try to always remember information or make things up», 32:43 Один из лучших способов победить галлюцинации, не пытаться всё помнить или выдумывать
«The aha moments are kind of fake because in pre-training you essentially have seen the whole internet», 1:43:44 Моменты озарения вроде как фейковые, потому что в pre-training модель по сути видела весь интернет
«It's like RLVR 1.0 land where it's still like that simple thing where we have a question and answer», 1:54:22 Мы в эпохе RLVR 1.0, где всё ещё та простая штука: есть вопрос и ответ
«If you see there is code and the code works, you know it's correct», 24:43 Если видишь код и он работает, знаешь, что он верный
«People do like things where strings are not attached», 36:23 Людям нравятся вещи без скрытых условий
«It's just such a perfect environment for creating progress based on human expense», 2:23:43 Это идеальная среда для прогресса за счёт человеческого износа
«I would say debugging is like a drink of water after you've been going through a desert for four days», 1:34:16 Дебаг это как глоток воды после четырёх дней в пустыне
«How do you become an expert if you never try to do the thing yourself», 1:36:04 Как стать экспертом, если ты никогда сам не пробовал сделать это
«Twitter is not, and Substack is not the entire world», 2:27:57 Твиттер и Substack это не весь мир
«The dream is actually kind of dying», 3:25:27 Эта мечта, по сути, умирает
«Each individual job that's lost is a human being who's suffering», 4:16:30 Каждое потерянное рабочее место это страдающий человек
«It is not that I'm so smart, but I stay with the questions much longer», 4:24:52 Дело не в том, что я так умён, просто я остаюсь с вопросами гораздо дольше
Факты
- «Момент DeepSeek»: DeepSeek R1 вышел в январе 2025, основан на DeepSeek V3 (декабрь 2024); удивил near-SOTA качеством при якобы меньшем компьюте.
- Opus 4.5 вышел в конце ноября (2025), Gemini 3 от Google, раньше в том же цикле.
- DeepSeek построен хедж-фондом High-Flyer Capital; Minimax и Z.ai подали документы на IPO.
- Себастьян Рашка, автор книг «Build a Large Language Model from Scratch» и «Build a Reasoning Model from Scratch»; модель в книге это GPT-2 на ~124 млн параметров.
- Нейтан Ламберт, post-training lead в Allen Institute for AI (AI2), автор книги про RLHF; был в команде, придумавшей термин RLVR (до DeepSeek).
- DeepSeek называл цифру ~$5 млн за pre-training по рыночным ценам облака; Olmo 3, ~$2 млн за аренду кластера (секция 2.4 статьи).
- Размеры pre-training датасетов: маленькие модели 5–10 трлн токенов, Qwen задокументирован до ~50 трлн, закрытые лабы по слухам до 100 трлн.
- RL-ран у AI2 к дедлайну 20 ноября длился 5 дней; в декабрьском релизе RL крутили ещё 3.5 недели, модель (~30 млрд параметров) заметно улучшилась.
- Пример RLVR: базовая Qwen3 на MATH-500 имела ~15% точности, за ~50 шагов (несколько минут) выросла до ~50%.
- Grok 4 использовал сопоставимый компьют для pre- и post-training; xAI по слухам достигнет 1 ГВт в начале 2026 и 2 ГВт к концу года.
- Anthropic присудили $1.5 млрд авторам, именно за торрент-книги, тогда как купленные и отсканированные книги суд признал легальными.
- Опрос ~791 профессионального разработчика (10+ лет опыта): и джуны, и сеньоры используют ИИ-код в продакшене; ~25% и больше используют 50%+ ИИ-кода; ~80% находят работу с ИИ приятнее.
- AI2 получил грант NSF на $100 млн на 4 года, крупнейший CS-грант в истории NSF; Reflection AI заявила о фандрейзе $2 млрд на открытые модели США.
- Средняя компенсация в OpenAI, свыше $1 млн в акциях в год на сотрудника (по словам Ламберта, «average compensation»).
- Автор оговаривается, что не эксперт в подполе: про первую AlphaFold говорит, что она явно моделировала физику взаимодействий молекулы, в следующей версии это убрали.
- Recursive language model paper вышла ~31 декабря (технически не 2026); эксперименты делали на GPT-5.
Источники
- Книги Себастьяна Рашки: «Build a Large Language Model from Scratch», «Build a Reasoning Model from Scratch»; курсы на YouTube.
- Книга Нейтана Ламберта про RLHF (доступна для предзаказа, есть полный цифровой препринт).
- «Attention Is All You Need», исходная статья про трансформер (encoder-decoder).
- Статья «The Art of Scaling Reinforcement Learning with Language Models» (фреймворк ScaleRL, из meta-стажировки).
- Direct Preference Optimization (DPO), статья про упрощённое решение вместо RL.
- Anthropic Constitutional AI paper, источник термина RLAIF (reinforcement learning with AI feedback).
- OpenAI Model Spec, публичный гайдлайн поведения модели.
- Books: «The Apple in China» (Patrick McGee); «Season of the Witch» (история SF 1960–1985); «Boom» (Byrne Hobart, классификация пузырей).
- Проекты/модели: DeepSeek, Qwen (Qwen3, Qwen3-Next с gated DeltaNet), Kimi K2, GLM (Z.ai), Minimax, Nemotron 3 (Nvidia), GPT-OSS, Gemma 3, Mistral Large 3, Olmo (AI2), LLM360/K2, Apertus (швейцарский консорциум), SmolLM (Hugging Face), Marin (Stanford), DCLM, FineWeb, Common Crawl, Semantic Scholar.
- Инструменты: Hugging Face Transformers, vLLM, SGLang, Cursor, Claude Code, Codex, Open Router, Perplexity, DGX Spark.
- AI-2027 report; harmonic (LLM + Lean для математики); Atom Project (American Truly Open Models); White House AI Action Plan 2025.
- Люди: Sam Altman, Dario Amodei, Ilya Sutskever, Jensen Huang, Mark Zuckerberg, Alexander Wang, Andrej Karpathy (цитата про slop), Elon Musk, Demis Hassabis, Alex Krizhevsky (AlexNet), Albert Einstein (финальная цитата).
Рекомендации
- Строй модель с нуля на одном GPU (уровня GPT-2) и обратно-инженирь реальные модели через Hugging Face configs, проверяя вывод как «verifiable reward»: лучший способ понять, как работает LLM.
- После освоения фундамента иди узко: найди что-то, на чём Claude/фронтир-модель спотыкается, сделай оценку/бенчмарк, который лаборатория подхватит: это карьерная ракета при минимуме компьюта.
- Используй LLM при чтении и обучении, но в несколько проходов: один офлайн-фокус без отвлечений, потом с моделью; не проваливайся в rabbit hole твиттера и Reddit.
- Учи новую тему из плотного учебника, а LLM используй для бесконечных упражнений и подсказок «я застрял, дай не полное решение, а что попробовать».
- Если серьёзно хочешь влиять на ИИ, физически будь в SF ради экосистемы, но выбирайся из пузыря: читай историю и литературу, ездь по миру (книга «Season of the Witch» как пример).
Итог
Победа в ИИ 2026 достаётся не тому, у кого секретный алгоритм, а тому, у кого лучше данные, железо, культура и продукт. А прогресс, спрятавшийся из архитектуры в скейлинг данных и систем, ещё далеко не выдохся.