Состояние AI в 2026: большие языковые модели, программирование, законы масштабирования, Китай, агенты, GPU, AGI | Подкаст Лекса Фридмана #490

Lex Fridman31 января 2026888 35214 10215 мин чтениясегодня, 06:25

Искусственный Интеллект Технологии Программирование Агенты Инновации

Коротко

Разговор Лекса Фридмана с Себастьяном Рашкой и Нейтаном Ламбертом о состоянии ИИ на входе в 2026 год: год после «момента DeepSeek» конкуренция стала бешеной, явного победителя нет ни на уровне идей, ни технологий. Технологии не проприетарны: исследователи постоянно перетекают между лабами, разница теперь в бюджете, железе и культуре организации, где Anthropic выглядит наименее хаотичной и выигрывает ставкой на код. Китайские open-weight модели (DeepSeek, Qwen, Kimi, GLM, Minimax) расплодились и отобрали корону у DeepSeek, но американские закрытые модели пока умнее, и за этот интеллект люди готовы платить. Архитектурно почти ничего не поменялось со времён GPT-2 (тот же авторегрессивный трансформер), весь прогресс идёт в данных, системах, mid-training и особенно в RL с проверяемыми наградами и inference-time scaling. Спикеры сходятся: скейлинг во всех формах жив, а вот AGI/ASI-пороги бесполезны, реального рывка в ВВП пока нет, и «единая модель на всё» как мечта умирает в пользу множества специализированных агентов.

Главный тезис

Идеи в ИИ текут свободно и не дают монополии: выигрывают те, у кого лучше данные, железо, культура и умение довести продукт до пользователя. Прогресс не в новых архитектурах, а в скейлинге данных, систем и пост-обучения, и он далеко не исчерпан.

Ключевые идеи

3:13: в 2026 ни у кого нет технологии, недоступной остальным: исследователи ротируются между лабами, идеи не проприетарны, разница только в бюджете и железе.
5:05: Anthropic выигрывает ставкой на код (Claude Code) и репутацией наименее хаотичной культуры; в мире, где идеи свободны, узкое место это человеческие усилия и организация.
5:48: DeepSeek теряет корону главного open-модельщика Китая: GLM от Z.ai, Minimax, Kimi Moonshot засветились ярче, хотя новые модели DeepSeek всё ещё сильны.
6:20: китайцы делают модели open-weight, потому что вне США за софт мало платят, а западные компании из соображений безопасности не купят API у китайцев; открытые веса это способ влезть в растущий рынок ИИ-расходов.
19:25: люди пользуются одной LLM по инерции и бренду, пока она не сломается на конкретной задаче, а потом переключаются, как с браузерами.
21:28: про китайские модели с точки зрения использования никто не вспомнил: американские пока умнее, и за маржинальный интеллект платят, даже если open-модели дешевле.
23:28: Claude Code это лучшая утилизация Opus 4.5: те же веса, но агентная обёртка ощутимо мощнее, чем в Cursor или VS Code.
44:01: от GPT-2 до сегодня архитектура фундаментально не изменилась: mixture of experts, разные варианты внимания (MLA, GQA, sliding window) это твики, а не новая парадигма.
44:50: весь прогресс сместился из архитектуры в данные, системы (FP8/FP4), mid-training и post-training: те же слои, но кодовая база обучения радикально другая.
49:43: RLVR (популяризован DeepSeek R1) главный прорыв 2025: модель генерирует ответ, его проверяют на правильность, и это масштабируется как inference-time scaling.
49:41: скейлинг работает во всех формах (pre-, RL, inference), но низко висящие фрукты сорваны; pre-training не мёртв, просто дорог, а другие способы скейла сейчас привлекательнее.
52:27: обучить модель стоит $1–10 млн, но обслуживание сотен миллионов юзеров это миллиарды, поэтому модели делают меньше, а не больше.
1:04:51: синтетические данные это не выдумки ИИ, а переписанные/структурированные тексты (OCR из PDF, перефразировки), которые учат модель быстрее при том же качестве.
1:23:29: RLHF усредняет обратную связь многих людей, поэтому моделям трудно быть острыми и иметь «голос»; это структурный, нерешаемый узел.
2:18:46: выбор карьеры (академия / open-лаба / закрытый фронтир / стартап) сводится к тому, любишь ли ты публиковаться или сидеть в закрытом; закрытое всегда платило больше, изменился только масштаб.

Почему это важно

Это карта того, кто и за счёт чего будет делить триллионный рынок ИИ. Anthropic забирает код и энтерпрайз, Google давит масштабом и собственным железом (TPU против маржи Nvidia), OpenAI остаётся хаотичным, но лучшим в «приземлении» новых идей, а китайские лаборатории через open-weight культивируют международное влияние, которое замечают и правительства. Nvidia держится не чипом, а экосистемой CUDA, копившейся два десятилетия. На кону не только деньги: открытые модели это двигатель исследований и обучения следующего поколения, поэтому Ламберт лично двигает Atom Project (американские по-настоящему открытые модели), чтобы исследования происходили в США, а не строились на Qwen. Проигрывают те, кто просто продаёт LLM-API без продукта и железа: их могут выдавить, как выдавливают в API-рынке AWS, Azure, GCP.

Идеи

Gemini 3 вышел до Opus 4.5 с огромным маркетинговым вау, но о нём быстро забыли, хотя модель отличная: дифференциация упала.
Хайп вокруг Opus 4.5 частично это эхо-камера X/Twitter, а реальная массовая база сидит на ChatGPT и Gemini для бытовых задач.
Люди заводят две подписки: одну «чистую» для работы без личных данных, другую личную: граница приватного и рабочего.
Router в GPT-5 это скрытая фича экономии: большинство юзеров больше не жгут дорогой GPU-инференс.
Ламберт держит по пять pro-запросов одновременно, каждый ищет одну конкретную статью или проверяет уравнение.
Бытовой пример скорости: жена уже в машине, GPU случайно выдернут, нужен bash-скрипт за 10 секунд: non-thinking модель как экстренный инструмент.
Разные модели под разные задачи: Gemini для «иголки в стоге», Grok 4 Heavy для хардкорного дебага, Claude Opus для кода и философии, Grok для реалтайма из твиттера.
«Момент озарения» R1 (модель ловит свою ошибку и переделывает) может быть фейком: в pre-training она видела транскрипты, где люди так делают, а RL просто это усиливает.
Данные Qwen подозревают в контаминации: меняешь числа в задаче, оставляешь слова, модель выдаёт подозрительно точный десятичный ответ без инструментов.
Единственный честный способ оценить LLM: бенчмарк, созданный после даты обучения модели (как CASP в предсказании структуры белка).
Anthropic проиграл в суде $1.5 млрд авторам именно за торрент-книги, хотя купленные и отсканированные книги суд признал легальными.
Люди эмоционально привязываются к весам модели: пишут сотрудникам OpenAI ночью, что «мой друг стал другим», уловив тонкие изменения в деплое.
LLM «схватывает» тебя за пять минут разговора, как TikTok за пять минут листания, и это то, к чему общество не готово, особенно для детей.
Журналисты будут связывать суициды с LLM (у них есть логи переписок), и компании из-за юридических рисков будут всё сильнее «стачивать острые углы» до генерик-состояния.
Джуниоры используют меньше ИИ-кода в продакшене, чем сеньоры: контринтуитивно, эксперты эффективнее применяют и доверяют коду, который проверяют.
Debugging с LLM это «глоток воды после четырёх дней в пустыне»: пропускаешь всю пустыню страдания, но теряешь радость самому найти баг.
Culture 996 (9 утра–9 вечера, 6 дней) пришла из Китая в Долину; в книге про Apple в Китае были «программы спасения брака», люди умирали от переработок.
Профессора на среднем счастливее сотрудников фронтир-лаб: у них заземление, студенты, менторство, миссия.
Мем SF «permanent underclass»: последние полгода 2025 якобы единственное окно построить ценность в ИИ-стартапе: пример того, как далеко заходит пузырь.
Recursive language model: разбить длинный контекст на подзадачи и рекурсивно вызывать LLM: точность выше, чем решать всё за один проход (в статье всё делали на GPT-5).
DeepSeek 3.2 использует sparse attention с лёгким индексатором, который выбирает нужные токены вместо внимания ко всем: возврат к исходной идее селективности.
Cursor Composer это файнтюн большой китайской MoE (иногда отвечает по-китайски), и они обновляют веса каждые 90 минут по реальному фидбеку юзеров: ближайшее к real-world RL.
Meta провалила Llama 4, гоняясь за верхушкой бенчмарков вместо маленьких моделей, которые люди могут запускать; open-source сообщество ответило хейтом, и Meta пересмотрела отношение к открытости.
Вера Рубин от Nvidia: чип с малой high-bandwidth памятью специально под prefill-часть инференса, разделение железа для обучения и инференса.
Manus AI основан 8 месяцев назад и вышел с оценкой $2 млрд: премия на ИИ-стартапы бешеная.
Watermark наоборот: помечать всё человеческое (фото до редактирования) через связь софта с производителем устройства, а не пытаться метить ИИ-картинки.

Инсайты

Отсутствие технологических рвов превращает конкуренцию в гонку исполнения: побеждает культура, скорость итераций и умение приземлить продукт, а не секретный алгоритм.
Экономика инференса, а не обучения, диктует форму моделей: раз обслуживание дороже тренировки на порядки, индустрия давится в сторону меньших моделей и роутеров.
Открытость это геополитический и образовательный инструмент, а не благотворительность: кто раздаёт веса, тот формирует, на чём учится следующее поколение и где происходят исследования.
Обучение на человеческом фидбеке создаёт структурный bias к угождению и усреднению: «голос» и острота приносятся в жертву полезности, и это математически, а не случайно.
Прогресс в ИИ давно не в архитектуре, а в данных и системах: одна и та же схема работает как каркас, вся турбулентность ушла в невидимые слои (data mix, FP8, mid-training).
RL раскрывает уже имеющиеся в pre-training навыки, а не вкладывает новые знания: отсюда быстрые скачки точности и репутация RLVR как «про форматирование».
У RLHF нет закона масштабирования, у RLVR есть: это переопределяет, куда лаборатории льют вычисления. Preference-tuning насыщается, а verifiable rewards тянутся дальше.
Ценность человека в цикле ИИ-генерации не в объёме, а в верификации и вкусе: даже маленький слой человеческой проверки качественно отличает данные от сырого слопа.
Обучение требует продуктивного страдания, и вездесущая LLM угрожает не знанию, а самому механизму его усвоения: отсюда возврат к blue books и устным экзаменам.
Пузыри в ИИ бывают двух видов: продуктивные (двигают стройку и искажают реальность в свою пользу) и финансовые (чистая спекуляция); опасен переход первого во второй.
Мечта о единой модели-на-всё умирает: будущее это множество специализированных агентов, что смещает ценность с самой модели на интеграции и оркестрацию.
Jagged-природа ИИ делает «полноту» вроде superhuman coder недостижимой: модель сверхчеловечна в одном и туповата в другом, люди навсегда останутся заполнять пробелы.
Скептицизм программистов к ИИ это часто не предел модели, а human skill issue и недоспецификация: тот же spec-driven подход, что и в человеческой коммуникации.
Реклама это долгосрочная ставка на маховик: кто первым запустит, соберёт больше денег на R&D и лучшие модели, но первым страшно из-за репутации и незрелости решения.
Сингулярные фигуры (Jensen, Jobs, Ilya, Demis) не меняют неизбежность прогресса, но фокусируют и ускоряют его на десятилетия, как ETF против отдельной акции.

Фреймворки

Три оси скейлинга (Ламберт):

Pre-training scaling: размер модели и датасета, степенной закон между compute+data и точностью предсказания.
RL scaling: как долго идёт обучение методом проб и ошибок (RLVR), лог-компьют → линейный рост качества.
Inference-time scaling: сколько токенов модель тратит на конкретную задачу перед ответом.

Иерархия стадий обучения:

Pre-training: впитывание знаний, next-token prediction на огромном корпусе (триллионы токенов), самая дорогая часть.
Mid-training: даёт скиллы (reasoning traces, long context) перед пост-обучением; отдельная фаза из-за нехватки длинноконтекстных документов и катастрофического забывания.
Post-training: раскрытие навыков: SFT, RLVR (пробы на проверяемых задачах), RLHF как финишная отделка стиля и тона.

Милстоуны AI-2027 (по Лексу): superhuman coder → superhuman AI researcher → superintelligent AI researcher → ASI; после первого шага остальное падает быстро. Прогноз сдвинут с 2027–28 на ~2031.

Dense vs sparse: dense, один полносвязный модуль, всегда активен; sparse (MoE), много экспертов, роутер активирует лишь несколько, больше знаний без роста compute на forward pass.

Цитаты

«I don't think there will be a clear winner in terms of technology access. However, I do think the differentiating factor will be budget and hardware constraints», 3:32 Не думаю, что будет явный победитель по доступу к технологиям. Но дифференцирующим фактором станут бюджет и ограничения по железу

«DeepSeek is kind of losing its crown as the preeminent open model maker in China», 5:48 DeepSeek вроде как теряет корону главного создателя открытых моделей в Китае

«You use it until it breaks, until you have a problem and then you change the LM», 19:25 Ты пользуешься ей, пока она не сломается, пока не упрёшься в проблему, и тогда меняешь модель

«It doesn't lie. It's math, basically», 24:54 Код не лжёт. По сути это математика

«The most recent model is probably always the best model», 8:26 Самая свежая модель почти всегда лучшая

«I still think most of the compute is going in at pre-training because you can still make a model better», 56:36 Я всё ещё думаю, что большая часть вычислений идёт в pre-training, потому что модель ещё можно улучшить

«It's held for 13 orders of magnitude of computers or something. Like why would it ever end?», 54:36 Это держалось для 13 порядков вычислений. С чего бы этому вообще заканчиваться?

«One of the best ways to solve hallucinations is to not try to always remember information or make things up», 32:43 Один из лучших способов победить галлюцинации, не пытаться всё помнить или выдумывать

«The aha moments are kind of fake because in pre-training you essentially have seen the whole internet», 1:43:44 Моменты озарения вроде как фейковые, потому что в pre-training модель по сути видела весь интернет

«It's like RLVR 1.0 land where it's still like that simple thing where we have a question and answer», 1:54:22 Мы в эпохе RLVR 1.0, где всё ещё та простая штука: есть вопрос и ответ

«If you see there is code and the code works, you know it's correct», 24:43 Если видишь код и он работает, знаешь, что он верный

«People do like things where strings are not attached», 36:23 Людям нравятся вещи без скрытых условий

«It's just such a perfect environment for creating progress based on human expense», 2:23:43 Это идеальная среда для прогресса за счёт человеческого износа

«I would say debugging is like a drink of water after you've been going through a desert for four days», 1:34:16 Дебаг это как глоток воды после четырёх дней в пустыне

«How do you become an expert if you never try to do the thing yourself», 1:36:04 Как стать экспертом, если ты никогда сам не пробовал сделать это

«Twitter is not, and Substack is not the entire world», 2:27:57 Твиттер и Substack это не весь мир

«The dream is actually kind of dying», 3:25:27 Эта мечта, по сути, умирает

«Each individual job that's lost is a human being who's suffering», 4:16:30 Каждое потерянное рабочее место это страдающий человек

«It is not that I'm so smart, but I stay with the questions much longer», 4:24:52 Дело не в том, что я так умён, просто я остаюсь с вопросами гораздо дольше

Факты

«Момент DeepSeek»: DeepSeek R1 вышел в январе 2025, основан на DeepSeek V3 (декабрь 2024); удивил near-SOTA качеством при якобы меньшем компьюте.
Opus 4.5 вышел в конце ноября (2025), Gemini 3 от Google, раньше в том же цикле.
DeepSeek построен хедж-фондом High-Flyer Capital; Minimax и Z.ai подали документы на IPO.
Себастьян Рашка, автор книг «Build a Large Language Model from Scratch» и «Build a Reasoning Model from Scratch»; модель в книге это GPT-2 на ~124 млн параметров.
Нейтан Ламберт, post-training lead в Allen Institute for AI (AI2), автор книги про RLHF; был в команде, придумавшей термин RLVR (до DeepSeek).
DeepSeek называл цифру ~$5 млн за pre-training по рыночным ценам облака; Olmo 3, ~$2 млн за аренду кластера (секция 2.4 статьи).
Размеры pre-training датасетов: маленькие модели 5–10 трлн токенов, Qwen задокументирован до ~50 трлн, закрытые лабы по слухам до 100 трлн.
RL-ран у AI2 к дедлайну 20 ноября длился 5 дней; в декабрьском релизе RL крутили ещё 3.5 недели, модель (~30 млрд параметров) заметно улучшилась.
Пример RLVR: базовая Qwen3 на MATH-500 имела ~15% точности, за ~50 шагов (несколько минут) выросла до ~50%.
Grok 4 использовал сопоставимый компьют для pre- и post-training; xAI по слухам достигнет 1 ГВт в начале 2026 и 2 ГВт к концу года.
Anthropic присудили $1.5 млрд авторам, именно за торрент-книги, тогда как купленные и отсканированные книги суд признал легальными.
Опрос ~791 профессионального разработчика (10+ лет опыта): и джуны, и сеньоры используют ИИ-код в продакшене; ~25% и больше используют 50%+ ИИ-кода; ~80% находят работу с ИИ приятнее.
AI2 получил грант NSF на $100 млн на 4 года, крупнейший CS-грант в истории NSF; Reflection AI заявила о фандрейзе $2 млрд на открытые модели США.
Средняя компенсация в OpenAI, свыше $1 млн в акциях в год на сотрудника (по словам Ламберта, «average compensation»).
Автор оговаривается, что не эксперт в подполе: про первую AlphaFold говорит, что она явно моделировала физику взаимодействий молекулы, в следующей версии это убрали.
Recursive language model paper вышла ~31 декабря (технически не 2026); эксперименты делали на GPT-5.

Источники

Книги Себастьяна Рашки: «Build a Large Language Model from Scratch», «Build a Reasoning Model from Scratch»; курсы на YouTube.
Книга Нейтана Ламберта про RLHF (доступна для предзаказа, есть полный цифровой препринт).
«Attention Is All You Need», исходная статья про трансформер (encoder-decoder).
Статья «The Art of Scaling Reinforcement Learning with Language Models» (фреймворк ScaleRL, из meta-стажировки).
Direct Preference Optimization (DPO), статья про упрощённое решение вместо RL.
Anthropic Constitutional AI paper, источник термина RLAIF (reinforcement learning with AI feedback).
OpenAI Model Spec, публичный гайдлайн поведения модели.
Books: «The Apple in China» (Patrick McGee); «Season of the Witch» (история SF 1960–1985); «Boom» (Byrne Hobart, классификация пузырей).
Проекты/модели: DeepSeek, Qwen (Qwen3, Qwen3-Next с gated DeltaNet), Kimi K2, GLM (Z.ai), Minimax, Nemotron 3 (Nvidia), GPT-OSS, Gemma 3, Mistral Large 3, Olmo (AI2), LLM360/K2, Apertus (швейцарский консорциум), SmolLM (Hugging Face), Marin (Stanford), DCLM, FineWeb, Common Crawl, Semantic Scholar.
Инструменты: Hugging Face Transformers, vLLM, SGLang, Cursor, Claude Code, Codex, Open Router, Perplexity, DGX Spark.
AI-2027 report; harmonic (LLM + Lean для математики); Atom Project (American Truly Open Models); White House AI Action Plan 2025.
Люди: Sam Altman, Dario Amodei, Ilya Sutskever, Jensen Huang, Mark Zuckerberg, Alexander Wang, Andrej Karpathy (цитата про slop), Elon Musk, Demis Hassabis, Alex Krizhevsky (AlexNet), Albert Einstein (финальная цитата).

Рекомендации

Строй модель с нуля на одном GPU (уровня GPT-2) и обратно-инженирь реальные модели через Hugging Face configs, проверяя вывод как «verifiable reward»: лучший способ понять, как работает LLM.
После освоения фундамента иди узко: найди что-то, на чём Claude/фронтир-модель спотыкается, сделай оценку/бенчмарк, который лаборатория подхватит: это карьерная ракета при минимуме компьюта.
Используй LLM при чтении и обучении, но в несколько проходов: один офлайн-фокус без отвлечений, потом с моделью; не проваливайся в rabbit hole твиттера и Reddit.
Учи новую тему из плотного учебника, а LLM используй для бесконечных упражнений и подсказок «я застрял, дай не полное решение, а что попробовать».
Если серьёзно хочешь влиять на ИИ, физически будь в SF ради экосистемы, но выбирайся из пузыря: читай историю и литературу, ездь по миру (книга «Season of the Witch» как пример).

Итог

Победа в ИИ 2026 достаётся не тому, у кого секретный алгоритм, а тому, у кого лучше данные, железо, культура и продукт. А прогресс, спрятавшийся из архитектуры в скейлинг данных и систем, ещё далеко не выдохся.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Lex Fridman»

Все видео

Павел Дуров: Telegram, Свобода, Цензура, Деньги, Власть и Природа Человека | Подкаст Лекса Фридмана #482

Павел Дуров: Telegram, Свобода, Цензура, Деньги, Власть и Природа Человека | Подкаст Лекса Фридмана #482

Питер Левелс: Программирование, вирусные стартапы на базе ИИ и жизнь цифрового кочевника | Подкаст Лекса Фридмана #440

Питер Левелс: Программирование, вирусные стартапы на базе ИИ и жизнь цифрового кочевника | Подкаст Лекса Фридмана #440

DeepSeek, Китай, OpenAI, NVIDIA, xAI, TSMC, Stargate и мегакластеры ИИ | Подкаст Лекса Фридмана #459

DeepSeek, Китай, OpenAI, NVIDIA, xAI, TSMC, Stargate и мегакластеры ИИ | Подкаст Лекса Фридмана #459