Состояние AI в 2026: большие языковые модели, программирование, законы масштабирования, Китай, агенты, GPU, AGI | Подкаст Лекса Фридмана #490

Lex Fridman31 января 2026888 35214 10215 мин чтениясегодня, 06:25

Коротко

Разговор Лекса Фридмана с Себастьяном Рашкой и Нейтаном Ламбертом о состоянии ИИ на входе в 2026 год: год после «момента DeepSeek» конкуренция стала бешеной, явного победителя нет ни на уровне идей, ни технологий. Технологии не проприетарны: исследователи постоянно перетекают между лабами, разница теперь в бюджете, железе и культуре организации, где Anthropic выглядит наименее хаотичной и выигрывает ставкой на код. Китайские open-weight модели (DeepSeek, Qwen, Kimi, GLM, Minimax) расплодились и отобрали корону у DeepSeek, но американские закрытые модели пока умнее, и за этот интеллект люди готовы платить. Архитектурно почти ничего не поменялось со времён GPT-2 (тот же авторегрессивный трансформер), весь прогресс идёт в данных, системах, mid-training и особенно в RL с проверяемыми наградами и inference-time scaling. Спикеры сходятся: скейлинг во всех формах жив, а вот AGI/ASI-пороги бесполезны, реального рывка в ВВП пока нет, и «единая модель на всё» как мечта умирает в пользу множества специализированных агентов.

Главный тезис

Идеи в ИИ текут свободно и не дают монополии: выигрывают те, у кого лучше данные, железо, культура и умение довести продукт до пользователя. Прогресс не в новых архитектурах, а в скейлинге данных, систем и пост-обучения, и он далеко не исчерпан.

Ключевые идеи

  • 3:13: в 2026 ни у кого нет технологии, недоступной остальным: исследователи ротируются между лабами, идеи не проприетарны, разница только в бюджете и железе.
  • 5:05: Anthropic выигрывает ставкой на код (Claude Code) и репутацией наименее хаотичной культуры; в мире, где идеи свободны, узкое место это человеческие усилия и организация.
  • 5:48: DeepSeek теряет корону главного open-модельщика Китая: GLM от Z.ai, Minimax, Kimi Moonshot засветились ярче, хотя новые модели DeepSeek всё ещё сильны.
  • 6:20: китайцы делают модели open-weight, потому что вне США за софт мало платят, а западные компании из соображений безопасности не купят API у китайцев; открытые веса это способ влезть в растущий рынок ИИ-расходов.
  • 19:25: люди пользуются одной LLM по инерции и бренду, пока она не сломается на конкретной задаче, а потом переключаются, как с браузерами.
  • 21:28: про китайские модели с точки зрения использования никто не вспомнил: американские пока умнее, и за маржинальный интеллект платят, даже если open-модели дешевле.
  • 23:28: Claude Code это лучшая утилизация Opus 4.5: те же веса, но агентная обёртка ощутимо мощнее, чем в Cursor или VS Code.
  • 44:01: от GPT-2 до сегодня архитектура фундаментально не изменилась: mixture of experts, разные варианты внимания (MLA, GQA, sliding window) это твики, а не новая парадигма.
  • 44:50: весь прогресс сместился из архитектуры в данные, системы (FP8/FP4), mid-training и post-training: те же слои, но кодовая база обучения радикально другая.
  • 49:43: RLVR (популяризован DeepSeek R1) главный прорыв 2025: модель генерирует ответ, его проверяют на правильность, и это масштабируется как inference-time scaling.
  • 49:41: скейлинг работает во всех формах (pre-, RL, inference), но низко висящие фрукты сорваны; pre-training не мёртв, просто дорог, а другие способы скейла сейчас привлекательнее.
  • 52:27: обучить модель стоит $1–10 млн, но обслуживание сотен миллионов юзеров это миллиарды, поэтому модели делают меньше, а не больше.
  • 1:04:51: синтетические данные это не выдумки ИИ, а переписанные/структурированные тексты (OCR из PDF, перефразировки), которые учат модель быстрее при том же качестве.
  • 1:23:29: RLHF усредняет обратную связь многих людей, поэтому моделям трудно быть острыми и иметь «голос»; это структурный, нерешаемый узел.
  • 2:18:46: выбор карьеры (академия / open-лаба / закрытый фронтир / стартап) сводится к тому, любишь ли ты публиковаться или сидеть в закрытом; закрытое всегда платило больше, изменился только масштаб.

Почему это важно

Это карта того, кто и за счёт чего будет делить триллионный рынок ИИ. Anthropic забирает код и энтерпрайз, Google давит масштабом и собственным железом (TPU против маржи Nvidia), OpenAI остаётся хаотичным, но лучшим в «приземлении» новых идей, а китайские лаборатории через open-weight культивируют международное влияние, которое замечают и правительства. Nvidia держится не чипом, а экосистемой CUDA, копившейся два десятилетия. На кону не только деньги: открытые модели это двигатель исследований и обучения следующего поколения, поэтому Ламберт лично двигает Atom Project (американские по-настоящему открытые модели), чтобы исследования происходили в США, а не строились на Qwen. Проигрывают те, кто просто продаёт LLM-API без продукта и железа: их могут выдавить, как выдавливают в API-рынке AWS, Azure, GCP.

Идеи

  • Gemini 3 вышел до Opus 4.5 с огромным маркетинговым вау, но о нём быстро забыли, хотя модель отличная: дифференциация упала.
  • Хайп вокруг Opus 4.5 частично это эхо-камера X/Twitter, а реальная массовая база сидит на ChatGPT и Gemini для бытовых задач.
  • Люди заводят две подписки: одну «чистую» для работы без личных данных, другую личную: граница приватного и рабочего.
  • Router в GPT-5 это скрытая фича экономии: большинство юзеров больше не жгут дорогой GPU-инференс.
  • Ламберт держит по пять pro-запросов одновременно, каждый ищет одну конкретную статью или проверяет уравнение.
  • Бытовой пример скорости: жена уже в машине, GPU случайно выдернут, нужен bash-скрипт за 10 секунд: non-thinking модель как экстренный инструмент.
  • Разные модели под разные задачи: Gemini для «иголки в стоге», Grok 4 Heavy для хардкорного дебага, Claude Opus для кода и философии, Grok для реалтайма из твиттера.
  • «Момент озарения» R1 (модель ловит свою ошибку и переделывает) может быть фейком: в pre-training она видела транскрипты, где люди так делают, а RL просто это усиливает.
  • Данные Qwen подозревают в контаминации: меняешь числа в задаче, оставляешь слова, модель выдаёт подозрительно точный десятичный ответ без инструментов.
  • Единственный честный способ оценить LLM: бенчмарк, созданный после даты обучения модели (как CASP в предсказании структуры белка).
  • Anthropic проиграл в суде $1.5 млрд авторам именно за торрент-книги, хотя купленные и отсканированные книги суд признал легальными.
  • Люди эмоционально привязываются к весам модели: пишут сотрудникам OpenAI ночью, что «мой друг стал другим», уловив тонкие изменения в деплое.
  • LLM «схватывает» тебя за пять минут разговора, как TikTok за пять минут листания, и это то, к чему общество не готово, особенно для детей.
  • Журналисты будут связывать суициды с LLM (у них есть логи переписок), и компании из-за юридических рисков будут всё сильнее «стачивать острые углы» до генерик-состояния.
  • Джуниоры используют меньше ИИ-кода в продакшене, чем сеньоры: контринтуитивно, эксперты эффективнее применяют и доверяют коду, который проверяют.
  • Debugging с LLM это «глоток воды после четырёх дней в пустыне»: пропускаешь всю пустыню страдания, но теряешь радость самому найти баг.
  • Culture 996 (9 утра–9 вечера, 6 дней) пришла из Китая в Долину; в книге про Apple в Китае были «программы спасения брака», люди умирали от переработок.
  • Профессора на среднем счастливее сотрудников фронтир-лаб: у них заземление, студенты, менторство, миссия.
  • Мем SF «permanent underclass»: последние полгода 2025 якобы единственное окно построить ценность в ИИ-стартапе: пример того, как далеко заходит пузырь.
  • Recursive language model: разбить длинный контекст на подзадачи и рекурсивно вызывать LLM: точность выше, чем решать всё за один проход (в статье всё делали на GPT-5).
  • DeepSeek 3.2 использует sparse attention с лёгким индексатором, который выбирает нужные токены вместо внимания ко всем: возврат к исходной идее селективности.
  • Cursor Composer это файнтюн большой китайской MoE (иногда отвечает по-китайски), и они обновляют веса каждые 90 минут по реальному фидбеку юзеров: ближайшее к real-world RL.
  • Meta провалила Llama 4, гоняясь за верхушкой бенчмарков вместо маленьких моделей, которые люди могут запускать; open-source сообщество ответило хейтом, и Meta пересмотрела отношение к открытости.
  • Вера Рубин от Nvidia: чип с малой high-bandwidth памятью специально под prefill-часть инференса, разделение железа для обучения и инференса.
  • Manus AI основан 8 месяцев назад и вышел с оценкой $2 млрд: премия на ИИ-стартапы бешеная.
  • Watermark наоборот: помечать всё человеческое (фото до редактирования) через связь софта с производителем устройства, а не пытаться метить ИИ-картинки.

Инсайты

  • Отсутствие технологических рвов превращает конкуренцию в гонку исполнения: побеждает культура, скорость итераций и умение приземлить продукт, а не секретный алгоритм.
  • Экономика инференса, а не обучения, диктует форму моделей: раз обслуживание дороже тренировки на порядки, индустрия давится в сторону меньших моделей и роутеров.
  • Открытость это геополитический и образовательный инструмент, а не благотворительность: кто раздаёт веса, тот формирует, на чём учится следующее поколение и где происходят исследования.
  • Обучение на человеческом фидбеке создаёт структурный bias к угождению и усреднению: «голос» и острота приносятся в жертву полезности, и это математически, а не случайно.
  • Прогресс в ИИ давно не в архитектуре, а в данных и системах: одна и та же схема работает как каркас, вся турбулентность ушла в невидимые слои (data mix, FP8, mid-training).
  • RL раскрывает уже имеющиеся в pre-training навыки, а не вкладывает новые знания: отсюда быстрые скачки точности и репутация RLVR как «про форматирование».
  • У RLHF нет закона масштабирования, у RLVR есть: это переопределяет, куда лаборатории льют вычисления. Preference-tuning насыщается, а verifiable rewards тянутся дальше.
  • Ценность человека в цикле ИИ-генерации не в объёме, а в верификации и вкусе: даже маленький слой человеческой проверки качественно отличает данные от сырого слопа.
  • Обучение требует продуктивного страдания, и вездесущая LLM угрожает не знанию, а самому механизму его усвоения: отсюда возврат к blue books и устным экзаменам.
  • Пузыри в ИИ бывают двух видов: продуктивные (двигают стройку и искажают реальность в свою пользу) и финансовые (чистая спекуляция); опасен переход первого во второй.
  • Мечта о единой модели-на-всё умирает: будущее это множество специализированных агентов, что смещает ценность с самой модели на интеграции и оркестрацию.
  • Jagged-природа ИИ делает «полноту» вроде superhuman coder недостижимой: модель сверхчеловечна в одном и туповата в другом, люди навсегда останутся заполнять пробелы.
  • Скептицизм программистов к ИИ это часто не предел модели, а human skill issue и недоспецификация: тот же spec-driven подход, что и в человеческой коммуникации.
  • Реклама это долгосрочная ставка на маховик: кто первым запустит, соберёт больше денег на R&D и лучшие модели, но первым страшно из-за репутации и незрелости решения.
  • Сингулярные фигуры (Jensen, Jobs, Ilya, Demis) не меняют неизбежность прогресса, но фокусируют и ускоряют его на десятилетия, как ETF против отдельной акции.

Фреймворки

Три оси скейлинга (Ламберт):

  • Pre-training scaling: размер модели и датасета, степенной закон между compute+data и точностью предсказания.
  • RL scaling: как долго идёт обучение методом проб и ошибок (RLVR), лог-компьют → линейный рост качества.
  • Inference-time scaling: сколько токенов модель тратит на конкретную задачу перед ответом.

Иерархия стадий обучения:

  • Pre-training: впитывание знаний, next-token prediction на огромном корпусе (триллионы токенов), самая дорогая часть.
  • Mid-training: даёт скиллы (reasoning traces, long context) перед пост-обучением; отдельная фаза из-за нехватки длинноконтекстных документов и катастрофического забывания.
  • Post-training: раскрытие навыков: SFT, RLVR (пробы на проверяемых задачах), RLHF как финишная отделка стиля и тона.

Милстоуны AI-2027 (по Лексу): superhuman coder → superhuman AI researcher → superintelligent AI researcher → ASI; после первого шага остальное падает быстро. Прогноз сдвинут с 2027–28 на ~2031.

Dense vs sparse: dense, один полносвязный модуль, всегда активен; sparse (MoE), много экспертов, роутер активирует лишь несколько, больше знаний без роста compute на forward pass.

Цитаты

«I don't think there will be a clear winner in terms of technology access. However, I do think the differentiating factor will be budget and hardware constraints», 3:32 Не думаю, что будет явный победитель по доступу к технологиям. Но дифференцирующим фактором станут бюджет и ограничения по железу

«DeepSeek is kind of losing its crown as the preeminent open model maker in China», 5:48 DeepSeek вроде как теряет корону главного создателя открытых моделей в Китае

«You use it until it breaks, until you have a problem and then you change the LM», 19:25 Ты пользуешься ей, пока она не сломается, пока не упрёшься в проблему, и тогда меняешь модель

«It doesn't lie. It's math, basically», 24:54 Код не лжёт. По сути это математика

«The most recent model is probably always the best model», 8:26 Самая свежая модель почти всегда лучшая

«I still think most of the compute is going in at pre-training because you can still make a model better», 56:36 Я всё ещё думаю, что большая часть вычислений идёт в pre-training, потому что модель ещё можно улучшить

«It's held for 13 orders of magnitude of computers or something. Like why would it ever end?», 54:36 Это держалось для 13 порядков вычислений. С чего бы этому вообще заканчиваться?

«One of the best ways to solve hallucinations is to not try to always remember information or make things up», 32:43 Один из лучших способов победить галлюцинации, не пытаться всё помнить или выдумывать

«The aha moments are kind of fake because in pre-training you essentially have seen the whole internet», 1:43:44 Моменты озарения вроде как фейковые, потому что в pre-training модель по сути видела весь интернет

«It's like RLVR 1.0 land where it's still like that simple thing where we have a question and answer», 1:54:22 Мы в эпохе RLVR 1.0, где всё ещё та простая штука: есть вопрос и ответ

«If you see there is code and the code works, you know it's correct», 24:43 Если видишь код и он работает, знаешь, что он верный

«People do like things where strings are not attached», 36:23 Людям нравятся вещи без скрытых условий

«It's just such a perfect environment for creating progress based on human expense», 2:23:43 Это идеальная среда для прогресса за счёт человеческого износа

«I would say debugging is like a drink of water after you've been going through a desert for four days», 1:34:16 Дебаг это как глоток воды после четырёх дней в пустыне

«How do you become an expert if you never try to do the thing yourself», 1:36:04 Как стать экспертом, если ты никогда сам не пробовал сделать это

«Twitter is not, and Substack is not the entire world», 2:27:57 Твиттер и Substack это не весь мир

«The dream is actually kind of dying», 3:25:27 Эта мечта, по сути, умирает

«Each individual job that's lost is a human being who's suffering», 4:16:30 Каждое потерянное рабочее место это страдающий человек

«It is not that I'm so smart, but I stay with the questions much longer», 4:24:52 Дело не в том, что я так умён, просто я остаюсь с вопросами гораздо дольше

Факты

  • «Момент DeepSeek»: DeepSeek R1 вышел в январе 2025, основан на DeepSeek V3 (декабрь 2024); удивил near-SOTA качеством при якобы меньшем компьюте.
  • Opus 4.5 вышел в конце ноября (2025), Gemini 3 от Google, раньше в том же цикле.
  • DeepSeek построен хедж-фондом High-Flyer Capital; Minimax и Z.ai подали документы на IPO.
  • Себастьян Рашка, автор книг «Build a Large Language Model from Scratch» и «Build a Reasoning Model from Scratch»; модель в книге это GPT-2 на ~124 млн параметров.
  • Нейтан Ламберт, post-training lead в Allen Institute for AI (AI2), автор книги про RLHF; был в команде, придумавшей термин RLVR (до DeepSeek).
  • DeepSeek называл цифру ~$5 млн за pre-training по рыночным ценам облака; Olmo 3, ~$2 млн за аренду кластера (секция 2.4 статьи).
  • Размеры pre-training датасетов: маленькие модели 5–10 трлн токенов, Qwen задокументирован до ~50 трлн, закрытые лабы по слухам до 100 трлн.
  • RL-ран у AI2 к дедлайну 20 ноября длился 5 дней; в декабрьском релизе RL крутили ещё 3.5 недели, модель (~30 млрд параметров) заметно улучшилась.
  • Пример RLVR: базовая Qwen3 на MATH-500 имела ~15% точности, за ~50 шагов (несколько минут) выросла до ~50%.
  • Grok 4 использовал сопоставимый компьют для pre- и post-training; xAI по слухам достигнет 1 ГВт в начале 2026 и 2 ГВт к концу года.
  • Anthropic присудили $1.5 млрд авторам, именно за торрент-книги, тогда как купленные и отсканированные книги суд признал легальными.
  • Опрос ~791 профессионального разработчика (10+ лет опыта): и джуны, и сеньоры используют ИИ-код в продакшене; ~25% и больше используют 50%+ ИИ-кода; ~80% находят работу с ИИ приятнее.
  • AI2 получил грант NSF на $100 млн на 4 года, крупнейший CS-грант в истории NSF; Reflection AI заявила о фандрейзе $2 млрд на открытые модели США.
  • Средняя компенсация в OpenAI, свыше $1 млн в акциях в год на сотрудника (по словам Ламберта, «average compensation»).
  • Автор оговаривается, что не эксперт в подполе: про первую AlphaFold говорит, что она явно моделировала физику взаимодействий молекулы, в следующей версии это убрали.
  • Recursive language model paper вышла ~31 декабря (технически не 2026); эксперименты делали на GPT-5.

Источники

  • Книги Себастьяна Рашки: «Build a Large Language Model from Scratch», «Build a Reasoning Model from Scratch»; курсы на YouTube.
  • Книга Нейтана Ламберта про RLHF (доступна для предзаказа, есть полный цифровой препринт).
  • «Attention Is All You Need», исходная статья про трансформер (encoder-decoder).
  • Статья «The Art of Scaling Reinforcement Learning with Language Models» (фреймворк ScaleRL, из meta-стажировки).
  • Direct Preference Optimization (DPO), статья про упрощённое решение вместо RL.
  • Anthropic Constitutional AI paper, источник термина RLAIF (reinforcement learning with AI feedback).
  • OpenAI Model Spec, публичный гайдлайн поведения модели.
  • Books: «The Apple in China» (Patrick McGee); «Season of the Witch» (история SF 1960–1985); «Boom» (Byrne Hobart, классификация пузырей).
  • Проекты/модели: DeepSeek, Qwen (Qwen3, Qwen3-Next с gated DeltaNet), Kimi K2, GLM (Z.ai), Minimax, Nemotron 3 (Nvidia), GPT-OSS, Gemma 3, Mistral Large 3, Olmo (AI2), LLM360/K2, Apertus (швейцарский консорциум), SmolLM (Hugging Face), Marin (Stanford), DCLM, FineWeb, Common Crawl, Semantic Scholar.
  • Инструменты: Hugging Face Transformers, vLLM, SGLang, Cursor, Claude Code, Codex, Open Router, Perplexity, DGX Spark.
  • AI-2027 report; harmonic (LLM + Lean для математики); Atom Project (American Truly Open Models); White House AI Action Plan 2025.
  • Люди: Sam Altman, Dario Amodei, Ilya Sutskever, Jensen Huang, Mark Zuckerberg, Alexander Wang, Andrej Karpathy (цитата про slop), Elon Musk, Demis Hassabis, Alex Krizhevsky (AlexNet), Albert Einstein (финальная цитата).

Рекомендации

  • Строй модель с нуля на одном GPU (уровня GPT-2) и обратно-инженирь реальные модели через Hugging Face configs, проверяя вывод как «verifiable reward»: лучший способ понять, как работает LLM.
  • После освоения фундамента иди узко: найди что-то, на чём Claude/фронтир-модель спотыкается, сделай оценку/бенчмарк, который лаборатория подхватит: это карьерная ракета при минимуме компьюта.
  • Используй LLM при чтении и обучении, но в несколько проходов: один офлайн-фокус без отвлечений, потом с моделью; не проваливайся в rabbit hole твиттера и Reddit.
  • Учи новую тему из плотного учебника, а LLM используй для бесконечных упражнений и подсказок «я застрял, дай не полное решение, а что попробовать».
  • Если серьёзно хочешь влиять на ИИ, физически будь в SF ради экосистемы, но выбирайся из пузыря: читай историю и литературу, ездь по миру (книга «Season of the Witch» как пример).

Итог

Победа в ИИ 2026 достаётся не тому, у кого секретный алгоритм, а тому, у кого лучше данные, железо, культура и продукт. А прогресс, спрятавшийся из архитектуры в скейлинг данных и систем, ещё далеко не выдохся.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Lex Fridman»

Все видео