Коротко
Илья Суцкевер (SSI) утверждает: разрыв между впечатляющими оценками моделей и их слабым экономическим эффектом объясняется тем, что компании затачивают RL-окружения под бенчмарки, а сами модели плохо обобщают (generalization) — это и есть самая фундаментальная проблема. Эра «чистого скейлинга» (2020–2025) закончилась, потому что данные предобучения конечны и 100-кратное увеличение компьюта больше не изменит всё радикально — индустрия возвращается в эру исследований (как 2012–2020). Суцкевер переопределяет суперинтеллект не как готовый «всезнающий мозг» (AGI), а как алгоритм непрерывного обучения — мозг, который умеет учиться чему угодно, как 15-летний подросток. Он считает, что у SSI достаточно компьюта для исследований (его «съедают» инференс и продукт у конкурентов), подтверждает отказ от предложения Meta о покупке и срыв раунда на $32 млрд, и даёт таймлайн до человекоподобного обучающегося ИИ в 5–20 лет. Алайнмент он связывает с загадкой человеческих эмоций и предлагает строить ИИ, который «заботится о разумной жизни», признавая, что не любит этот ответ.
Главный тезис
Сегодняшние модели гениальны на оценках, но экономически бесполезны, потому что они не умеют обобщать и непрерывно учиться, как человек; настоящий суперинтеллект — это не готовый AGI, а обучающийся мозг, и чтобы его построить, нужно вернуться от скейлинга к фундаментальным исследованиям.
Ключевые идеи
- 1:21 — модели умнее своего экономического влияния; разрыв между качеством на оценках и реальной пользой — главный источник путаницы.
- 1:47 — модель делает удивительные вещи, но в реальной работе зацикливается, чинит баг и возвращает старый — «честный обмен» одного бага на другой.
- 3:35 — у всех компаний есть команды, штампующие RL-окружения; здесь слишком много степеней свободы, и это объясняет странности поведения.
- 3:58 — невольно люди берут вдохновение из оценок (evals): «хочу хорошо выглядеть на релизе» → строят RL под бенчмарк.
- 4:49 — настоящий reward hacking делают сами исследователи, переоптимизируя под метрики.
- 5:04 — стать сверхчеловеком только в competitive programming не делает модель лучше в реальном кодинге, как и студента.
- 6:42 — студент, потративший на олимпиады 100 часов, а не 10 000, продвинется в карьере дальше; модели — как переученные «10 000-часовые» студенты.
- 8:05 — сила предобучения не в лучшей генерализации, а в том, что данных просто очень много и думать о выборе данных не нужно.
- 9:22 — предобучение — это не человек; человек за 15 лет видит мало данных, но знает их глубже и не делает таких ошибок, как ИИ.
- 16:24 — у человека с повреждённым эмоциональным центром сохранялась речь и логика, но рушилось принятие решений — намёк на роль эмоций как value-функции.
- 13:18 — value-функция ускоряет обучение (не надо ждать конца игры), но всё достижимое с ней достижимо и без неё, просто медленнее.
- 21:04 — компьют стал настолько большим, что мы вернулись в эру исследований; «скейлинг» как одно слово больше не диктует, что делать.
- 24:49 — самое фундаментальное: модели делают очень плохую нормализацию/обобщение, плюс низкая sample-efficiency.
- 50:32 — суперинтеллект — не готовая вещь, а мозг, который умеет учиться делать всё, и которому ещё предстоит «период обучения и стажировки».
- 57:33 — вся проблема ИИ и AGI — это власть/сила: что произойдёт, когда мощь станет очень большой.
- 1:01:16 — его «обнадёживающая» ставка по алайнменту — ИИ, который заботится о разумной жизни, причём ИИ сам разумен.
- 1:22:13 — таймлайн до человекоподобного непрерывно обучающегося ИИ — 5–20 лет.
Почему это важно
Это редкое развёрнутое интервью Суцкевера после ухода из OpenAI и основания SSI — лаборатории, демонстративно отказавшейся от продуктовой гонки. Он публично переопределяет цель отрасли: не «достроить AGI скейлингом», а заново заняться исследованиями обобщения и непрерывного обучения. Это прямой вызов стратегии OpenAI, Anthropic, Google (Gemini), Meta, Thinking Machines и SSI-конкурентов, которые жгут $5–6 млрд/год на эксперименты. Если Суцкевер прав, преимущество компьюта обнуляется (исследованию не нужен самый большой кластер), а ставка на «постепенный выпуск» и «заботу о разумной жизни» становится конкурентным и политическим аргументом о том, кто и как будет контролировать сверхмощный ИИ — включая правительства и общество, которые, по его прогнозу, вмешаются, когда ИИ начнёт «ощущаться мощным».
Идеи
- Язык формирует мышление: одно слово «scaling» перенаправило всю индустрию, высосав «весь воздух из комнаты».
- Слово «AGI» возникло не как описание финального состояния, а как реакция на «Narrow AI» (шахматы, шашки) — маркетинговая антитеза.
- «AGI» и «pre-training» вместе «промахнулись мимо цели»: они навязали образ всезнающей готовой системы, тогда как человек как раз НЕ AGI — он мало знает, но непрерывно учится.
- 100-кратный компьют теперь не изменит всё — это сигнал, что рецепт исчерпан, а не что нужно «ещё больше».
- AlexNet обучили на 2 GPU (всего 64 в проекте), трансформер 2017 года — не больше 64 GPU ≈ 2 нынешних: прорывные идеи не требовали гигантского компьюта.
- «Компаний больше, чем идей в мире» — диагноз перегретой индустрии.
- Реальный бюджет SSI на исследования сопоставим с конкурентами, потому что у тех деньги уходят на инференс, инженеров и продажников.
- Сигмоида обучения RL (долго ничего, потом рывок, потом плато) против power-law предобучения — разные режимы обучения.
- Идея, что нужное число сэмплов растёт с разрывом между текущей и целевой вероятностью, связана с биномиальной энтропией информации в RL (выведено с помощью Gemini 3 в спонсорском сегменте).
- Self-play ценен тем, что производит модель только из компьюта, без данных — если данные узкое место, это важно.
- Классический self-play узок (диалог, дебаты, стратегии), но переродился в setup «prover/verifier» и LLM-судью, ищущего ошибки.
- Конкуренция между агентами естественно толкает их отличаться — это источник разнообразия перспектив.
- Все предобученные модели похожи, потому что обучены на одних данных; разнообразие вносит именно RL/post-training.
- Армия из «миллиона копий Ильи» даёт убывающую отдачу — нужны те, кто думает иначе.
- Зрение пятилетнего ребёнка уже достаточно для самовождения — данных мало, а качество восприятия высокое; значит дело не в объёме данных.
- Самоходная «маленькая машинка» учится за 10 часов без внешнего учителя, потому что у неё есть собственная сильная value-функция (здравый смысл).
- Эмоции — простые, но широко применимые; именно непокупленность/«непричёсанность» эмоций помогает в новом мире.
- Чувства голода/комфорта/еды иногда ведут нас по ложному пути — эволюционная value-функция ошибается в современной среде.
- Безопасность в авиации и Linux достигнута не «продумыванием заранее», а развёртыванием в мире, наблюдением сбоев и итеративным укреплением.
- Постепенный выпуск ИИ — не уступка, а способ дать миру и людям подготовиться и встроить ИИ в общество.
- Суперинтеллект можно держать ограниченным и совместно используемым; вероятно появятся много суперинтеллектов сразу.
- Конкуренция между суперинтеллектами пойдёт через специализацию — как в рынке и в эволюции — и мир поделят разные компании по нишам.
- Долгосрочный «баланс»: у каждого человека свой ИИ, который зарабатывает и действует за него, пишет отчётик «я всё сделал» — но человек перестаёт быть субъектом (Суцкеверу этот сценарий не нравится).
- Загадка: как эволюция «вшила» в геном заботу о сложных социальных вещах, если геном не интеллектуален, а социальные расчёты требуют огромного анализа.
- Гипотеза «жёсткого кода областей мозга» (эволюция указывает «обращай внимание на этот регион») опровергается перепрофилированием коры у слепых от рождения.
- Человеческие нейроны могут «вычислять» больше, чем мы думаем — если так, повторить обучение человека будет сложнее.
- Красота, простота и «правильность» — компас исследователя; концепция нейрона и распределённого представления вдохновлены мозгом.
- Top-down вера в правильность идеи — это то, что удерживает, когда эксперимент «врёт» из-за скрытого бага.
Инсайты
- Высокий балл на бенчмарках и реальная экономическая ценность — ортогональны, когда обучение оптимизируют под измеримое; метрика становится мишенью, а не целью.
- Узкая виртуозность (олимпиадный код) отрицательно коррелирует с переносимостью навыка — переинвестиция в одну область съедает способность к обобщению.
- Главное узкое место ИИ — не знания и не компьют, а дешёвая генерализация и sample-efficiency, то есть способность учиться много из малого.
- Эмоции — это эволюционно обученная value-функция: простые сигналы, дающие устойчивые решения в средах, для которых они не проектировались.
- Сила предобучения — в объёме и отсутствии выбора данных, а не в превосходной генерализации; RL вынуждает впервые осознанно выбирать, чему учить.
- Прогресс ограничивают два разных барьера — идеи и способность их проверить (компьют/инженерия); когда снимается компьют-барьер, дефицитом снова становятся идеи.
- Преимущество масштаба исчезает, когда компьюта «достаточно»: для доказательства идеи нужен некоторый, но не максимальный компьют — это уравнивает маленькие лаборатории.
- Подлинный суперинтеллект — это процесс обучения, а не артефакт знаний; «готовый всезнающий AGI» — концептуальная ошибка, навязанная словами.
- Разнообразие интеллектов рождается из разного опыта/обучения, а не из «температуры» сэмплинга; идентичные обученцы дают убывающую отдачу.
- Безопасность сложных систем — эмерджентное свойство развёртывания и итераций, а не результат предварительного теоретизирования; отсюда аргумент за постепенный выпуск.
- Рыночная и эволюционная динамика загоняют мощный ИИ в специализацию, противореча идеалу универсального обучающегося — принцип расходится с поведением.
- Власть — единственная настоящая ось проблемы ИИ: алайнмент, политика и риск сводятся к вопросу «что делать с концентрированной силой».
- Управляемость возникнет не из аргументов, а из наблюдаемой мощи: поведение людей и компаний изменится, когда ИИ начнёт «ощущаться» сильным, а не выглядеть глупым.
Цитаты
«I think models are smarter than their economic influence.» — 1:21 Я думаю, модели умнее своего экономического влияния.
«But the economic impact is very lagging behind.» — 1:47 Но экономический эффект сильно отстаёт.
«I like this thought that real reward hacking is done by researchers who pay a lot of attention to value.» — 4:49 Мне нравится мысль, что настоящий reward hacking делают исследователи, которые слишком зациклены на метрике.
«you get 10,000 hours of free practice» — 8:05 ты получаешь 10 000 часов практики бесплатно.
«But pre-training is not human.» — 9:22 Но предобучение — это не человек.
«we have come back to the age of research» — 21:04 мы вернулись в эпоху исследований.
«Keep scaling, one word, scaling.» — 21:31 Продолжай скейлить — одно слово, скейлинг.
«We have reached the point where there are more companies than thoughts in the world.» — 36:49 Мы дошли до точки, где в мире компаний больше, чем идей.
«the most fundamental thing is that these models do a very bad normalization» — 24:49 самое фундаментальное — эти модели очень плохо обобщают.
«Nobody listens to Ilya.» — 32:17 Илью никто не слушает.
«super intelligence is not a ready thing» — 50:32 суперинтеллект — это не готовая вещь.
«you are presenting a brain that can learn to do everything» — 50:56 ты предлагаешь мозг, который может научиться делать всё.
«Because a person becomes a pure producer in six months.» — 55:39 Потому что человек становится чистым производителем за шесть месяцев.
«Actually, the whole problem of AI and AGI is power. The whole problem is power.» — 57:33 На самом деле вся проблема ИИ и AGI — это власть. Вся проблема — власть.
«Humans will be a very small part of sensitive animals.» — 1:02:08 Люди будут лишь крошечной частью разумных существ.
«I think it's 5 to 20.» — 1:22:13 Думаю, это 5–20 лет.
«I found self-play interesting because it provides a way of making a model using only compute without data.» — 1:30:37 Self-play интересен тем, что позволяет делать модель только из компьюта, без данных.
«All pre-trained models are the same because they are pre-trained on the same data.» — 1:30:00 Все предобученные модели одинаковы, потому что обучены на одних и тех же данных.
«Because you are always right when you trust the data. But there is a bug and you don't know.» — 1:34:50 Доверяя данным, ты всегда «прав» — но там баг, а ты не знаешь.
«This is only the right inspiration from beauty, simplicity, and intelligence.» — 1:34:31 Это и есть верное вдохновение — от красоты, простоты и ума.
Факты
- SSI привлекла $3 млрд — по словам Суцкевера, «немало, но всё же», и существенно меньше, чем поднимают конкуренты.
- SSI вела раунд по оценке $32 млрд, после чего поступило предложение Meta о покупке; Суцкевер отказался, а его сооснователь согласился и в одиночку ушёл в Meta (намёк на Даниэля Гросса).
- Озвученный таймлайн до человекоподобного непрерывно обучающегося, переходящего в суперчеловеческий ИИ — 5–20 лет.
- AlexNet обучали на 2 GPU, всего в проекте — 64 GPU; трансформер 2017 года не превышал 64 GPU, что эквивалентно ~2 современным GPU.
- По слухам из Twitter, компании сейчас тратят на RL больше компьюта, чем на предобучение (длинные роллауты при малом обучающем сигнале).
- Спикер ссылается на «теорию», что компании уровня OpenAI тратят $5–6 млрд в год на эксперименты (с оговоркой «по слухам»).
- Эра исследований — 2012–2020; эра скейлинга — примерно 2020–2025 (датировки самого спикера).
- В спонсорском сегменте показано, что Gemini 3 помог вывести связь информации в RL через биномиальную энтропию, сгенерировал график и код эксперимента для Google Colab.
- Спикер ссылается на реальный нейробиологический случай: человек со стёртой эмоциональной способностью (инсульт/травма) сохранил речь и логику, но катастрофически ослаб в принятии решений (отсылка к кейсам типа Дамасио, без называния имени).
- Упомянут факт о слепых от рождения: их зрительная кора перепрофилируется под другие чувства — против гипотезы жёстко закодированных функциональных областей.
- OpenAI и Anthropic уже публично поддержали регулирование/безопасность ИИ — Суцкевер называет это «маленьким шагом», которого раньше не было, и говорит, что предсказывал это три года назад.
- Спонсоры эпизода: Labelbox (очистка транскриптов через дообученную модель) и Sardine (антифрод по сигналам с сети из 4 млрд устройств).
Источники
- Ян Лекун (Jan Lekhan) — упомянут тезис, что дети учатся водить за ~10 часов практики.
- OpenAI, Anthropic, Meta, Google/Gemini, Thinking Machines — компании, фигурирующие как игроки или ориентиры.
- AlexNet, трансформер (2017), GPT-3, ResNet (Resonate/Kaee), O1, R1 — вехи и модели, на которые ссылается спикер.
- Gemini 3 — инструмент, использованный для вывода теории RL-скейлинга (и спонсорский продукт), блог-пост автора об RL-scaling написан с его помощью.
- Labelbox (labelbox.com), Sardine (sardine.ai) — спонсоры эпизода.
- Концепции distributed representation и value functions в RL — теоретическая база обсуждения.
Итог
Не строить готовый AGI всё большим скейлингом, а заново заняться исследованием обобщения и непрерывного обучения — потому что настоящий суперинтеллект это не всезнающий мозг, а мозг, который умеет учиться, и вся игра в конечном счёте идёт о власти над этой силой.