Илья Суцкевер – Мы переходим от эпохи масштабирования к эпохе исследований

Dwarkesh Patel25 ноября 20251 357 19132 76311 мин чтения29 мая, 15:20

Коротко

Илья Суцкевер (SSI) утверждает: разрыв между впечатляющими оценками моделей и их слабым экономическим эффектом объясняется тем, что компании затачивают RL-окружения под бенчмарки, а сами модели плохо обобщают (generalization) — это и есть самая фундаментальная проблема. Эра «чистого скейлинга» (2020–2025) закончилась, потому что данные предобучения конечны и 100-кратное увеличение компьюта больше не изменит всё радикально — индустрия возвращается в эру исследований (как 2012–2020). Суцкевер переопределяет суперинтеллект не как готовый «всезнающий мозг» (AGI), а как алгоритм непрерывного обучения — мозг, который умеет учиться чему угодно, как 15-летний подросток. Он считает, что у SSI достаточно компьюта для исследований (его «съедают» инференс и продукт у конкурентов), подтверждает отказ от предложения Meta о покупке и срыв раунда на $32 млрд, и даёт таймлайн до человекоподобного обучающегося ИИ в 5–20 лет. Алайнмент он связывает с загадкой человеческих эмоций и предлагает строить ИИ, который «заботится о разумной жизни», признавая, что не любит этот ответ.

Главный тезис

Сегодняшние модели гениальны на оценках, но экономически бесполезны, потому что они не умеют обобщать и непрерывно учиться, как человек; настоящий суперинтеллект — это не готовый AGI, а обучающийся мозг, и чтобы его построить, нужно вернуться от скейлинга к фундаментальным исследованиям.

Ключевые идеи

  • 1:21 — модели умнее своего экономического влияния; разрыв между качеством на оценках и реальной пользой — главный источник путаницы.
  • 1:47 — модель делает удивительные вещи, но в реальной работе зацикливается, чинит баг и возвращает старый — «честный обмен» одного бага на другой.
  • 3:35 — у всех компаний есть команды, штампующие RL-окружения; здесь слишком много степеней свободы, и это объясняет странности поведения.
  • 3:58 — невольно люди берут вдохновение из оценок (evals): «хочу хорошо выглядеть на релизе» → строят RL под бенчмарк.
  • 4:49 — настоящий reward hacking делают сами исследователи, переоптимизируя под метрики.
  • 5:04 — стать сверхчеловеком только в competitive programming не делает модель лучше в реальном кодинге, как и студента.
  • 6:42 — студент, потративший на олимпиады 100 часов, а не 10 000, продвинется в карьере дальше; модели — как переученные «10 000-часовые» студенты.
  • 8:05 — сила предобучения не в лучшей генерализации, а в том, что данных просто очень много и думать о выборе данных не нужно.
  • 9:22предобучение — это не человек; человек за 15 лет видит мало данных, но знает их глубже и не делает таких ошибок, как ИИ.
  • 16:24 — у человека с повреждённым эмоциональным центром сохранялась речь и логика, но рушилось принятие решений — намёк на роль эмоций как value-функции.
  • 13:18value-функция ускоряет обучение (не надо ждать конца игры), но всё достижимое с ней достижимо и без неё, просто медленнее.
  • 21:04 — компьют стал настолько большим, что мы вернулись в эру исследований; «скейлинг» как одно слово больше не диктует, что делать.
  • 24:49 — самое фундаментальное: модели делают очень плохую нормализацию/обобщение, плюс низкая sample-efficiency.
  • 50:32 — суперинтеллект — не готовая вещь, а мозг, который умеет учиться делать всё, и которому ещё предстоит «период обучения и стажировки».
  • 57:33 — вся проблема ИИ и AGI — это власть/сила: что произойдёт, когда мощь станет очень большой.
  • 1:01:16 — его «обнадёживающая» ставка по алайнменту — ИИ, который заботится о разумной жизни, причём ИИ сам разумен.
  • 1:22:13 — таймлайн до человекоподобного непрерывно обучающегося ИИ — 5–20 лет.

Почему это важно

Это редкое развёрнутое интервью Суцкевера после ухода из OpenAI и основания SSI — лаборатории, демонстративно отказавшейся от продуктовой гонки. Он публично переопределяет цель отрасли: не «достроить AGI скейлингом», а заново заняться исследованиями обобщения и непрерывного обучения. Это прямой вызов стратегии OpenAI, Anthropic, Google (Gemini), Meta, Thinking Machines и SSI-конкурентов, которые жгут $5–6 млрд/год на эксперименты. Если Суцкевер прав, преимущество компьюта обнуляется (исследованию не нужен самый большой кластер), а ставка на «постепенный выпуск» и «заботу о разумной жизни» становится конкурентным и политическим аргументом о том, кто и как будет контролировать сверхмощный ИИ — включая правительства и общество, которые, по его прогнозу, вмешаются, когда ИИ начнёт «ощущаться мощным».

Идеи

  • Язык формирует мышление: одно слово «scaling» перенаправило всю индустрию, высосав «весь воздух из комнаты».
  • Слово «AGI» возникло не как описание финального состояния, а как реакция на «Narrow AI» (шахматы, шашки) — маркетинговая антитеза.
  • «AGI» и «pre-training» вместе «промахнулись мимо цели»: они навязали образ всезнающей готовой системы, тогда как человек как раз НЕ AGI — он мало знает, но непрерывно учится.
  • 100-кратный компьют теперь не изменит всё — это сигнал, что рецепт исчерпан, а не что нужно «ещё больше».
  • AlexNet обучили на 2 GPU (всего 64 в проекте), трансформер 2017 года — не больше 64 GPU ≈ 2 нынешних: прорывные идеи не требовали гигантского компьюта.
  • «Компаний больше, чем идей в мире» — диагноз перегретой индустрии.
  • Реальный бюджет SSI на исследования сопоставим с конкурентами, потому что у тех деньги уходят на инференс, инженеров и продажников.
  • Сигмоида обучения RL (долго ничего, потом рывок, потом плато) против power-law предобучения — разные режимы обучения.
  • Идея, что нужное число сэмплов растёт с разрывом между текущей и целевой вероятностью, связана с биномиальной энтропией информации в RL (выведено с помощью Gemini 3 в спонсорском сегменте).
  • Self-play ценен тем, что производит модель только из компьюта, без данных — если данные узкое место, это важно.
  • Классический self-play узок (диалог, дебаты, стратегии), но переродился в setup «prover/verifier» и LLM-судью, ищущего ошибки.
  • Конкуренция между агентами естественно толкает их отличаться — это источник разнообразия перспектив.
  • Все предобученные модели похожи, потому что обучены на одних данных; разнообразие вносит именно RL/post-training.
  • Армия из «миллиона копий Ильи» даёт убывающую отдачу — нужны те, кто думает иначе.
  • Зрение пятилетнего ребёнка уже достаточно для самовождения — данных мало, а качество восприятия высокое; значит дело не в объёме данных.
  • Самоходная «маленькая машинка» учится за 10 часов без внешнего учителя, потому что у неё есть собственная сильная value-функция (здравый смысл).
  • Эмоции — простые, но широко применимые; именно непокупленность/«непричёсанность» эмоций помогает в новом мире.
  • Чувства голода/комфорта/еды иногда ведут нас по ложному пути — эволюционная value-функция ошибается в современной среде.
  • Безопасность в авиации и Linux достигнута не «продумыванием заранее», а развёртыванием в мире, наблюдением сбоев и итеративным укреплением.
  • Постепенный выпуск ИИ — не уступка, а способ дать миру и людям подготовиться и встроить ИИ в общество.
  • Суперинтеллект можно держать ограниченным и совместно используемым; вероятно появятся много суперинтеллектов сразу.
  • Конкуренция между суперинтеллектами пойдёт через специализацию — как в рынке и в эволюции — и мир поделят разные компании по нишам.
  • Долгосрочный «баланс»: у каждого человека свой ИИ, который зарабатывает и действует за него, пишет отчётик «я всё сделал» — но человек перестаёт быть субъектом (Суцкеверу этот сценарий не нравится).
  • Загадка: как эволюция «вшила» в геном заботу о сложных социальных вещах, если геном не интеллектуален, а социальные расчёты требуют огромного анализа.
  • Гипотеза «жёсткого кода областей мозга» (эволюция указывает «обращай внимание на этот регион») опровергается перепрофилированием коры у слепых от рождения.
  • Человеческие нейроны могут «вычислять» больше, чем мы думаем — если так, повторить обучение человека будет сложнее.
  • Красота, простота и «правильность» — компас исследователя; концепция нейрона и распределённого представления вдохновлены мозгом.
  • Top-down вера в правильность идеи — это то, что удерживает, когда эксперимент «врёт» из-за скрытого бага.

Инсайты

  • Высокий балл на бенчмарках и реальная экономическая ценность — ортогональны, когда обучение оптимизируют под измеримое; метрика становится мишенью, а не целью.
  • Узкая виртуозность (олимпиадный код) отрицательно коррелирует с переносимостью навыка — переинвестиция в одну область съедает способность к обобщению.
  • Главное узкое место ИИ — не знания и не компьют, а дешёвая генерализация и sample-efficiency, то есть способность учиться много из малого.
  • Эмоции — это эволюционно обученная value-функция: простые сигналы, дающие устойчивые решения в средах, для которых они не проектировались.
  • Сила предобучения — в объёме и отсутствии выбора данных, а не в превосходной генерализации; RL вынуждает впервые осознанно выбирать, чему учить.
  • Прогресс ограничивают два разных барьера — идеи и способность их проверить (компьют/инженерия); когда снимается компьют-барьер, дефицитом снова становятся идеи.
  • Преимущество масштаба исчезает, когда компьюта «достаточно»: для доказательства идеи нужен некоторый, но не максимальный компьют — это уравнивает маленькие лаборатории.
  • Подлинный суперинтеллект — это процесс обучения, а не артефакт знаний; «готовый всезнающий AGI» — концептуальная ошибка, навязанная словами.
  • Разнообразие интеллектов рождается из разного опыта/обучения, а не из «температуры» сэмплинга; идентичные обученцы дают убывающую отдачу.
  • Безопасность сложных систем — эмерджентное свойство развёртывания и итераций, а не результат предварительного теоретизирования; отсюда аргумент за постепенный выпуск.
  • Рыночная и эволюционная динамика загоняют мощный ИИ в специализацию, противореча идеалу универсального обучающегося — принцип расходится с поведением.
  • Власть — единственная настоящая ось проблемы ИИ: алайнмент, политика и риск сводятся к вопросу «что делать с концентрированной силой».
  • Управляемость возникнет не из аргументов, а из наблюдаемой мощи: поведение людей и компаний изменится, когда ИИ начнёт «ощущаться» сильным, а не выглядеть глупым.

Цитаты

«I think models are smarter than their economic influence.» — 1:21 Я думаю, модели умнее своего экономического влияния.

«But the economic impact is very lagging behind.» — 1:47 Но экономический эффект сильно отстаёт.

«I like this thought that real reward hacking is done by researchers who pay a lot of attention to value.» — 4:49 Мне нравится мысль, что настоящий reward hacking делают исследователи, которые слишком зациклены на метрике.

«you get 10,000 hours of free practice» — 8:05 ты получаешь 10 000 часов практики бесплатно.

«But pre-training is not human.» — 9:22 Но предобучение — это не человек.

«we have come back to the age of research» — 21:04 мы вернулись в эпоху исследований.

«Keep scaling, one word, scaling.» — 21:31 Продолжай скейлить — одно слово, скейлинг.

«We have reached the point where there are more companies than thoughts in the world.» — 36:49 Мы дошли до точки, где в мире компаний больше, чем идей.

«the most fundamental thing is that these models do a very bad normalization» — 24:49 самое фундаментальное — эти модели очень плохо обобщают.

«Nobody listens to Ilya.» — 32:17 Илью никто не слушает.

«super intelligence is not a ready thing» — 50:32 суперинтеллект — это не готовая вещь.

«you are presenting a brain that can learn to do everything» — 50:56 ты предлагаешь мозг, который может научиться делать всё.

«Because a person becomes a pure producer in six months.» — 55:39 Потому что человек становится чистым производителем за шесть месяцев.

«Actually, the whole problem of AI and AGI is power. The whole problem is power.» — 57:33 На самом деле вся проблема ИИ и AGI — это власть. Вся проблема — власть.

«Humans will be a very small part of sensitive animals.» — 1:02:08 Люди будут лишь крошечной частью разумных существ.

«I think it's 5 to 20.» — 1:22:13 Думаю, это 5–20 лет.

«I found self-play interesting because it provides a way of making a model using only compute without data.» — 1:30:37 Self-play интересен тем, что позволяет делать модель только из компьюта, без данных.

«All pre-trained models are the same because they are pre-trained on the same data.» — 1:30:00 Все предобученные модели одинаковы, потому что обучены на одних и тех же данных.

«Because you are always right when you trust the data. But there is a bug and you don't know.» — 1:34:50 Доверяя данным, ты всегда «прав» — но там баг, а ты не знаешь.

«This is only the right inspiration from beauty, simplicity, and intelligence.» — 1:34:31 Это и есть верное вдохновение — от красоты, простоты и ума.

Факты

  • SSI привлекла $3 млрд — по словам Суцкевера, «немало, но всё же», и существенно меньше, чем поднимают конкуренты.
  • SSI вела раунд по оценке $32 млрд, после чего поступило предложение Meta о покупке; Суцкевер отказался, а его сооснователь согласился и в одиночку ушёл в Meta (намёк на Даниэля Гросса).
  • Озвученный таймлайн до человекоподобного непрерывно обучающегося, переходящего в суперчеловеческий ИИ — 5–20 лет.
  • AlexNet обучали на 2 GPU, всего в проекте — 64 GPU; трансформер 2017 года не превышал 64 GPU, что эквивалентно ~2 современным GPU.
  • По слухам из Twitter, компании сейчас тратят на RL больше компьюта, чем на предобучение (длинные роллауты при малом обучающем сигнале).
  • Спикер ссылается на «теорию», что компании уровня OpenAI тратят $5–6 млрд в год на эксперименты (с оговоркой «по слухам»).
  • Эра исследований — 2012–2020; эра скейлинга — примерно 2020–2025 (датировки самого спикера).
  • В спонсорском сегменте показано, что Gemini 3 помог вывести связь информации в RL через биномиальную энтропию, сгенерировал график и код эксперимента для Google Colab.
  • Спикер ссылается на реальный нейробиологический случай: человек со стёртой эмоциональной способностью (инсульт/травма) сохранил речь и логику, но катастрофически ослаб в принятии решений (отсылка к кейсам типа Дамасио, без называния имени).
  • Упомянут факт о слепых от рождения: их зрительная кора перепрофилируется под другие чувства — против гипотезы жёстко закодированных функциональных областей.
  • OpenAI и Anthropic уже публично поддержали регулирование/безопасность ИИ — Суцкевер называет это «маленьким шагом», которого раньше не было, и говорит, что предсказывал это три года назад.
  • Спонсоры эпизода: Labelbox (очистка транскриптов через дообученную модель) и Sardine (антифрод по сигналам с сети из 4 млрд устройств).

Источники

  • Ян Лекун (Jan Lekhan) — упомянут тезис, что дети учатся водить за ~10 часов практики.
  • OpenAI, Anthropic, Meta, Google/Gemini, Thinking Machines — компании, фигурирующие как игроки или ориентиры.
  • AlexNet, трансформер (2017), GPT-3, ResNet (Resonate/Kaee), O1, R1 — вехи и модели, на которые ссылается спикер.
  • Gemini 3 — инструмент, использованный для вывода теории RL-скейлинга (и спонсорский продукт), блог-пост автора об RL-scaling написан с его помощью.
  • Labelbox (labelbox.com), Sardine (sardine.ai) — спонсоры эпизода.
  • Концепции distributed representation и value functions в RL — теоретическая база обсуждения.

Итог

Не строить готовый AGI всё большим скейлингом, а заново заняться исследованием обобщения и непрерывного обучения — потому что настоящий суперинтеллект это не всезнающий мозг, а мозг, который умеет учиться, и вся игра в конечном счёте идёт о власти над этой силой.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Dwarkesh Patel»

Все видео