Илья Суцкевер – Мы переходим от эпохи масштабирования к эпохе исследований

Dwarkesh Patel25 ноября 20251 357 19132 76311 мин чтения29 мая, 15:20

Искусственный Интеллект Инновации Технологии Наука

Коротко

Илья Суцкевер (SSI) утверждает: разрыв между впечатляющими оценками моделей и их слабым экономическим эффектом объясняется тем, что компании затачивают RL-окружения под бенчмарки, а сами модели плохо обобщают (generalization) — это и есть самая фундаментальная проблема. Эра «чистого скейлинга» (2020–2025) закончилась, потому что данные предобучения конечны и 100-кратное увеличение компьюта больше не изменит всё радикально — индустрия возвращается в эру исследований (как 2012–2020). Суцкевер переопределяет суперинтеллект не как готовый «всезнающий мозг» (AGI), а как алгоритм непрерывного обучения — мозг, который умеет учиться чему угодно, как 15-летний подросток. Он считает, что у SSI достаточно компьюта для исследований (его «съедают» инференс и продукт у конкурентов), подтверждает отказ от предложения Meta о покупке и срыв раунда на $32 млрд, и даёт таймлайн до человекоподобного обучающегося ИИ в 5–20 лет. Алайнмент он связывает с загадкой человеческих эмоций и предлагает строить ИИ, который «заботится о разумной жизни», признавая, что не любит этот ответ.

Главный тезис

Сегодняшние модели гениальны на оценках, но экономически бесполезны, потому что они не умеют обобщать и непрерывно учиться, как человек; настоящий суперинтеллект — это не готовый AGI, а обучающийся мозг, и чтобы его построить, нужно вернуться от скейлинга к фундаментальным исследованиям.

Ключевые идеи

1:21 — модели умнее своего экономического влияния; разрыв между качеством на оценках и реальной пользой — главный источник путаницы.
1:47 — модель делает удивительные вещи, но в реальной работе зацикливается, чинит баг и возвращает старый — «честный обмен» одного бага на другой.
3:35 — у всех компаний есть команды, штампующие RL-окружения; здесь слишком много степеней свободы, и это объясняет странности поведения.
3:58 — невольно люди берут вдохновение из оценок (evals): «хочу хорошо выглядеть на релизе» → строят RL под бенчмарк.
4:49 — настоящий reward hacking делают сами исследователи, переоптимизируя под метрики.
5:04 — стать сверхчеловеком только в competitive programming не делает модель лучше в реальном кодинге, как и студента.
6:42 — студент, потративший на олимпиады 100 часов, а не 10 000, продвинется в карьере дальше; модели — как переученные «10 000-часовые» студенты.
8:05 — сила предобучения не в лучшей генерализации, а в том, что данных просто очень много и думать о выборе данных не нужно.
9:22 — предобучение — это не человек; человек за 15 лет видит мало данных, но знает их глубже и не делает таких ошибок, как ИИ.
16:24 — у человека с повреждённым эмоциональным центром сохранялась речь и логика, но рушилось принятие решений — намёк на роль эмоций как value-функции.
13:18 — value-функция ускоряет обучение (не надо ждать конца игры), но всё достижимое с ней достижимо и без неё, просто медленнее.
21:04 — компьют стал настолько большим, что мы вернулись в эру исследований; «скейлинг» как одно слово больше не диктует, что делать.
24:49 — самое фундаментальное: модели делают очень плохую нормализацию/обобщение, плюс низкая sample-efficiency.
50:32 — суперинтеллект — не готовая вещь, а мозг, который умеет учиться делать всё, и которому ещё предстоит «период обучения и стажировки».
57:33 — вся проблема ИИ и AGI — это власть/сила: что произойдёт, когда мощь станет очень большой.
1:01:16 — его «обнадёживающая» ставка по алайнменту — ИИ, который заботится о разумной жизни, причём ИИ сам разумен.
1:22:13 — таймлайн до человекоподобного непрерывно обучающегося ИИ — 5–20 лет.

Почему это важно

Это редкое развёрнутое интервью Суцкевера после ухода из OpenAI и основания SSI — лаборатории, демонстративно отказавшейся от продуктовой гонки. Он публично переопределяет цель отрасли: не «достроить AGI скейлингом», а заново заняться исследованиями обобщения и непрерывного обучения. Это прямой вызов стратегии OpenAI, Anthropic, Google (Gemini), Meta, Thinking Machines и SSI-конкурентов, которые жгут $5–6 млрд/год на эксперименты. Если Суцкевер прав, преимущество компьюта обнуляется (исследованию не нужен самый большой кластер), а ставка на «постепенный выпуск» и «заботу о разумной жизни» становится конкурентным и политическим аргументом о том, кто и как будет контролировать сверхмощный ИИ — включая правительства и общество, которые, по его прогнозу, вмешаются, когда ИИ начнёт «ощущаться мощным».

Идеи

Язык формирует мышление: одно слово «scaling» перенаправило всю индустрию, высосав «весь воздух из комнаты».
Слово «AGI» возникло не как описание финального состояния, а как реакция на «Narrow AI» (шахматы, шашки) — маркетинговая антитеза.
«AGI» и «pre-training» вместе «промахнулись мимо цели»: они навязали образ всезнающей готовой системы, тогда как человек как раз НЕ AGI — он мало знает, но непрерывно учится.
100-кратный компьют теперь не изменит всё — это сигнал, что рецепт исчерпан, а не что нужно «ещё больше».
AlexNet обучили на 2 GPU (всего 64 в проекте), трансформер 2017 года — не больше 64 GPU ≈ 2 нынешних: прорывные идеи не требовали гигантского компьюта.
«Компаний больше, чем идей в мире» — диагноз перегретой индустрии.
Реальный бюджет SSI на исследования сопоставим с конкурентами, потому что у тех деньги уходят на инференс, инженеров и продажников.
Сигмоида обучения RL (долго ничего, потом рывок, потом плато) против power-law предобучения — разные режимы обучения.
Идея, что нужное число сэмплов растёт с разрывом между текущей и целевой вероятностью, связана с биномиальной энтропией информации в RL (выведено с помощью Gemini 3 в спонсорском сегменте).
Self-play ценен тем, что производит модель только из компьюта, без данных — если данные узкое место, это важно.
Классический self-play узок (диалог, дебаты, стратегии), но переродился в setup «prover/verifier» и LLM-судью, ищущего ошибки.
Конкуренция между агентами естественно толкает их отличаться — это источник разнообразия перспектив.
Все предобученные модели похожи, потому что обучены на одних данных; разнообразие вносит именно RL/post-training.
Армия из «миллиона копий Ильи» даёт убывающую отдачу — нужны те, кто думает иначе.
Зрение пятилетнего ребёнка уже достаточно для самовождения — данных мало, а качество восприятия высокое; значит дело не в объёме данных.
Самоходная «маленькая машинка» учится за 10 часов без внешнего учителя, потому что у неё есть собственная сильная value-функция (здравый смысл).
Эмоции — простые, но широко применимые; именно непокупленность/«непричёсанность» эмоций помогает в новом мире.
Чувства голода/комфорта/еды иногда ведут нас по ложному пути — эволюционная value-функция ошибается в современной среде.
Безопасность в авиации и Linux достигнута не «продумыванием заранее», а развёртыванием в мире, наблюдением сбоев и итеративным укреплением.
Постепенный выпуск ИИ — не уступка, а способ дать миру и людям подготовиться и встроить ИИ в общество.
Суперинтеллект можно держать ограниченным и совместно используемым; вероятно появятся много суперинтеллектов сразу.
Конкуренция между суперинтеллектами пойдёт через специализацию — как в рынке и в эволюции — и мир поделят разные компании по нишам.
Долгосрочный «баланс»: у каждого человека свой ИИ, который зарабатывает и действует за него, пишет отчётик «я всё сделал» — но человек перестаёт быть субъектом (Суцкеверу этот сценарий не нравится).
Загадка: как эволюция «вшила» в геном заботу о сложных социальных вещах, если геном не интеллектуален, а социальные расчёты требуют огромного анализа.
Гипотеза «жёсткого кода областей мозга» (эволюция указывает «обращай внимание на этот регион») опровергается перепрофилированием коры у слепых от рождения.
Человеческие нейроны могут «вычислять» больше, чем мы думаем — если так, повторить обучение человека будет сложнее.
Красота, простота и «правильность» — компас исследователя; концепция нейрона и распределённого представления вдохновлены мозгом.
Top-down вера в правильность идеи — это то, что удерживает, когда эксперимент «врёт» из-за скрытого бага.

Инсайты

Высокий балл на бенчмарках и реальная экономическая ценность — ортогональны, когда обучение оптимизируют под измеримое; метрика становится мишенью, а не целью.
Узкая виртуозность (олимпиадный код) отрицательно коррелирует с переносимостью навыка — переинвестиция в одну область съедает способность к обобщению.
Главное узкое место ИИ — не знания и не компьют, а дешёвая генерализация и sample-efficiency, то есть способность учиться много из малого.
Эмоции — это эволюционно обученная value-функция: простые сигналы, дающие устойчивые решения в средах, для которых они не проектировались.
Сила предобучения — в объёме и отсутствии выбора данных, а не в превосходной генерализации; RL вынуждает впервые осознанно выбирать, чему учить.
Прогресс ограничивают два разных барьера — идеи и способность их проверить (компьют/инженерия); когда снимается компьют-барьер, дефицитом снова становятся идеи.
Преимущество масштаба исчезает, когда компьюта «достаточно»: для доказательства идеи нужен некоторый, но не максимальный компьют — это уравнивает маленькие лаборатории.
Подлинный суперинтеллект — это процесс обучения, а не артефакт знаний; «готовый всезнающий AGI» — концептуальная ошибка, навязанная словами.
Разнообразие интеллектов рождается из разного опыта/обучения, а не из «температуры» сэмплинга; идентичные обученцы дают убывающую отдачу.
Безопасность сложных систем — эмерджентное свойство развёртывания и итераций, а не результат предварительного теоретизирования; отсюда аргумент за постепенный выпуск.
Рыночная и эволюционная динамика загоняют мощный ИИ в специализацию, противореча идеалу универсального обучающегося — принцип расходится с поведением.
Власть — единственная настоящая ось проблемы ИИ: алайнмент, политика и риск сводятся к вопросу «что делать с концентрированной силой».
Управляемость возникнет не из аргументов, а из наблюдаемой мощи: поведение людей и компаний изменится, когда ИИ начнёт «ощущаться» сильным, а не выглядеть глупым.

Цитаты

«I think models are smarter than their economic influence.» — 1:21 Я думаю, модели умнее своего экономического влияния.

«But the economic impact is very lagging behind.» — 1:47 Но экономический эффект сильно отстаёт.

«I like this thought that real reward hacking is done by researchers who pay a lot of attention to value.» — 4:49 Мне нравится мысль, что настоящий reward hacking делают исследователи, которые слишком зациклены на метрике.

«you get 10,000 hours of free practice» — 8:05 ты получаешь 10 000 часов практики бесплатно.

«But pre-training is not human.» — 9:22 Но предобучение — это не человек.

«we have come back to the age of research» — 21:04 мы вернулись в эпоху исследований.

«Keep scaling, one word, scaling.» — 21:31 Продолжай скейлить — одно слово, скейлинг.

«We have reached the point where there are more companies than thoughts in the world.» — 36:49 Мы дошли до точки, где в мире компаний больше, чем идей.

«the most fundamental thing is that these models do a very bad normalization» — 24:49 самое фундаментальное — эти модели очень плохо обобщают.

«Nobody listens to Ilya.» — 32:17 Илью никто не слушает.

«super intelligence is not a ready thing» — 50:32 суперинтеллект — это не готовая вещь.

«you are presenting a brain that can learn to do everything» — 50:56 ты предлагаешь мозг, который может научиться делать всё.

«Because a person becomes a pure producer in six months.» — 55:39 Потому что человек становится чистым производителем за шесть месяцев.

«Actually, the whole problem of AI and AGI is power. The whole problem is power.» — 57:33 На самом деле вся проблема ИИ и AGI — это власть. Вся проблема — власть.

«Humans will be a very small part of sensitive animals.» — 1:02:08 Люди будут лишь крошечной частью разумных существ.

«I think it's 5 to 20.» — 1:22:13 Думаю, это 5–20 лет.

«I found self-play interesting because it provides a way of making a model using only compute without data.» — 1:30:37 Self-play интересен тем, что позволяет делать модель только из компьюта, без данных.

«All pre-trained models are the same because they are pre-trained on the same data.» — 1:30:00 Все предобученные модели одинаковы, потому что обучены на одних и тех же данных.

«Because you are always right when you trust the data. But there is a bug and you don't know.» — 1:34:50 Доверяя данным, ты всегда «прав» — но там баг, а ты не знаешь.

«This is only the right inspiration from beauty, simplicity, and intelligence.» — 1:34:31 Это и есть верное вдохновение — от красоты, простоты и ума.

Факты

SSI привлекла $3 млрд — по словам Суцкевера, «немало, но всё же», и существенно меньше, чем поднимают конкуренты.
SSI вела раунд по оценке $32 млрд, после чего поступило предложение Meta о покупке; Суцкевер отказался, а его сооснователь согласился и в одиночку ушёл в Meta (намёк на Даниэля Гросса).
Озвученный таймлайн до человекоподобного непрерывно обучающегося, переходящего в суперчеловеческий ИИ — 5–20 лет.
AlexNet обучали на 2 GPU, всего в проекте — 64 GPU; трансформер 2017 года не превышал 64 GPU, что эквивалентно ~2 современным GPU.
По слухам из Twitter, компании сейчас тратят на RL больше компьюта, чем на предобучение (длинные роллауты при малом обучающем сигнале).
Спикер ссылается на «теорию», что компании уровня OpenAI тратят $5–6 млрд в год на эксперименты (с оговоркой «по слухам»).
Эра исследований — 2012–2020; эра скейлинга — примерно 2020–2025 (датировки самого спикера).
В спонсорском сегменте показано, что Gemini 3 помог вывести связь информации в RL через биномиальную энтропию, сгенерировал график и код эксперимента для Google Colab.
Спикер ссылается на реальный нейробиологический случай: человек со стёртой эмоциональной способностью (инсульт/травма) сохранил речь и логику, но катастрофически ослаб в принятии решений (отсылка к кейсам типа Дамасио, без называния имени).
Упомянут факт о слепых от рождения: их зрительная кора перепрофилируется под другие чувства — против гипотезы жёстко закодированных функциональных областей.
OpenAI и Anthropic уже публично поддержали регулирование/безопасность ИИ — Суцкевер называет это «маленьким шагом», которого раньше не было, и говорит, что предсказывал это три года назад.
Спонсоры эпизода: Labelbox (очистка транскриптов через дообученную модель) и Sardine (антифрод по сигналам с сети из 4 млрд устройств).

Источники

Ян Лекун (Jan Lekhan) — упомянут тезис, что дети учатся водить за ~10 часов практики.
OpenAI, Anthropic, Meta, Google/Gemini, Thinking Machines — компании, фигурирующие как игроки или ориентиры.
AlexNet, трансформер (2017), GPT-3, ResNet (Resonate/Kaee), O1, R1 — вехи и модели, на которые ссылается спикер.
Gemini 3 — инструмент, использованный для вывода теории RL-скейлинга (и спонсорский продукт), блог-пост автора об RL-scaling написан с его помощью.
Labelbox (labelbox.com), Sardine (sardine.ai) — спонсоры эпизода.
Концепции distributed representation и value functions в RL — теоретическая база обсуждения.

Итог

Не строить готовый AGI всё большим скейлингом, а заново заняться исследованием обобщения и непрерывного обучения — потому что настоящий суперинтеллект это не всезнающий мозг, а мозг, который умеет учиться, и вся игра в конечном счёте идёт о власти над этой силой.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Dwarkesh Patel»

Все видео

Илон Маск – Через 36 месяцев самым дешёвым местом для AI будет космос

Илон Маск – Через 36 месяцев самым дешёвым местом для AI будет космос

Андрей Карпаты — «Мы призываем призраков, а не строим животных

Андрей Карпаты — «Мы призываем призраков, а не строим животных

Дженсен Хуанг – сохранит ли Nvidia своё господство?

Дженсен Хуанг – сохранит ли Nvidia своё господство?