Как выглядит следующая парадигма обучения?

Dwarkesh Patel26 июня 202674 1102 45211 мин чтениясегодня, 04:55

Ai Агенты Обучение Инновации

Коротко

Дваркеш разбирает ставку всех лабораторий: натренируй ИИ на миллионах верифицируемых задач в тысячах RL-сред — и получишь AGI как побочный продукт, агента-решателя проблем. Он не отрицает прогресс, но бьёт в две связанные дыры: сэмпл-эффективность (модели в ~миллион раз прожорливее людей по данным) и отсутствие непрерывного обучения (выученное в сессии не возвращается в веса). Ключевой барьер — домен мало сделать верифицируемым, его надо сделать воспроизводимым: тысячу параллельных запусков из одной точки можно крутить на коде и матане, но не на реальном мире, где проверка занимает месяцы и не перезапускается. Как выход он предлагает self-distillation (OPSD) — сжатие опыта сессии в маленький точечный апдейт весов — и спекулятивную идею «сна»: модель сама строит симуляторы и тренируется в них, как EfficientZero доигрывает партии в голове. Финал — сценарий 2028: широко развёрнутый ИИ учится прямо в экономике, и каждое взаимодействие делает его умнее за счёт опыта со всеми пользователями сразу.

Главный тезис

Текущая парадигма RLVR упирается не в вычисления, а в то, что большинство реальных доменов не воспроизводимы — поэтому без сэмпл-эффективного непрерывного обучения, возвращающего опыт сессии обратно в веса, AGI из «миллиона верифицируемых задач» сам по себе не вырастет.

Ключевые идеи

0:00 — ставка лабораторий: натренировать ИИ на миллионах верифицируемых задач в тысячах RL-сред = получить AGI как агента-решателя проблем, способного тянуть открытые задачи неделями вопреки ошибкам.
0:51 — модели в ~миллион раз менее сэмпл-эффективны, чем люди; оптимисты отвечают, что это касается только тренировки.
1:01 — контраргумент оптимистов: тренировка это разовая стоимость, амортизируемая по миллиардам сессий, а важна эффективность модели внутри сессии.
1:38 — если обучение в контексте (in-context) станет достаточно мощным на длинных горизонтах, дистилляция в веса якобы не нужна; плюс окна контекста скоро станут «бесконечными».
2:24 — computer use прогрессирует медленнее кода и матана, и это диагностический сигнал, а не случайность.
3:06 — домену мало быть верифицируемым, он должен быть воспроизводимым: тысячи параллельных запусков из одной стартовой точки на детерминированном симуляторе.
3:46 — нельзя гонять тысячу агентов через оплату на Amazon — Энди Джасси забанит ботов; отсюда дорогие клоны Slack/Gmail как обходной путь.
6:02 — нет RL-среды, чтобы вырастить политика уровня Линдона Джонсона или основателя ракетной компании уровня Илона Маска.
6:44 — вопрос эмпирический: даст ли переход с миллиардов на триллион долларов в RL-средах человекоподобный общий интеллект в пределах окна контекста.
6:54 — Дарио (Amodei): деградация на длинных контекстах = разрыв между длиной контекста тренировки и длиной контекста работы; намёк, что короткий RL не обобщается на длинный.
7:48 — 30–50% вычислений лаборатории уходит на инференс, и эти вычисления не улучшают модель — гигантская трата, ведь именно при развёртывании всплывают самые ценные данные.
8:16 — метафора: у нас гениальный аспирант, которому не дают пройти настоящую стажировку, и мы скармливаем ему всё больше учебных кейсов (RL-сред).
8:53 — в мозге нет жёсткого разделения на параметры и активации, череп не расширяется по мере учёбы; обучение это сжатие в веса, а не бесконечный KV-кэш.
12:55 — OPSD / self-distillation: учим базовую модель давать те же предсказания, что и «ветеран» с накопленным контекстом сессии; не нужна верифицируемая награда, сигнал плотнее RL.
15:32 — спекулятивная идея «сон»: ИИ строит симулятор реальности и прогоняет на порядки больше синтетических сэмплов, как EfficientZero доигрывает десятки партий в голове на каждый реальный ход.
16:42 — если «сон» сработает, это четвёртая ось масштабирования наряду с претренировкой, RL и inference-time compute; «press slash dream» вместо «slash compact».

Почему это важно

Это спор о том, упрётся ли нынешний бум в стену или нет, и где именно. Если Дваркеш прав, то одно лишь заливание денег в RL-среды (с миллиардов до триллиона) не закроет дыры сэмпл-эффективности и непрерывного обучения — а значит, лаборатории (Anthropic, OpenAI и те, кто строит RLVR-пайплайны) ставят на обобщение, которое эмпирически не гарантировано. Выигрывает тот, кто решит архитектурную проблему возврата опыта сессии в веса дёшево и без катастрофического забывания: это превратит развёрнутый по экономике ИИ из статичного продукта в систему, которая учится у всех пользователей сразу. Проигрывают те, кто рассчитывает на «бесконечный контекст» как замену настоящему обучению. Параллельно это объясняет, почему computer use отстаёт от кода — и почему агенты, которые строят клоны приложений, бьют двух зайцев сразу.

Идеи

Обучение в контексте использует «быстрые веса», создаваемые на лету механизмом внимания — отсюда сэмпл-эффективность, но плохая масштабируемость по памяти.
Заставить ИИ воссоздать целое приложение с нуля = одновременно создать клон-среду для computer use и хорошую RL-задачу для кодинга.
Мультимодальные данные в претренировке заметно хуже по качеству, чем текст, — одна из причин отставания computer use.
Внешняя петля верификации в реальном мире может требовать месяцев или лет реальных действий, чтобы получить результат.
Нельзя «слегка возмутить» действия модели в тысяче параллельных прогонов реального мира, чтобы изолировать, что именно сработало.
Нестационарные среды без сброса — известная открытая проблема RL, не новость, но именно она режет реальные домены.
Существуют люди с аутистической памятью, помнящие случайные таблицы чисел годами, — и эта же сверхточность парализует способность к абстракции и метафоре.
Человеческое непрерывное обучение — не хранение всех наблюдений «на кончике языка», а вырезание правильных интуиций в веса.
Градиентные апдейты крайне неэффективны на уровне сэмпла — переход в веса требует жертвовать сэмпл-эффективностью in-context обучения.
Все успешно развёрнутые online-модели учили одно и то же у миллионов пользователей; разному у разных пользователей они пока не учатся.
Модель табуляции Cursor учится онлайн, предсказывая принятые/отклонённые правки — больше 400 в день; цель — какие правки реально приняты.
Раздувание KV-кэша по мере обучения у новых пользователей не масштабируется — это не путь к непрерывному обучению.
RL модифицирует очень мало параметров за шаг — и это плюс: меньше риск перезаписать и забыть то, что знает база.
Наивный SFT на всех документах сессии бессмысленен: цель не запомнить транскрипт каждого дня, а консолидировать горстку релевантных инсайтов.
OPSD тренирует на потокенной разнице вероятностей учитель/ученик — куда более плотный сигнал, чем одна награда, размазанная по всей траектории.
OPSD сохраняет свойство SFT, но извлекает только знание, нужное для тех же результатов, а не тянется ко всему распределению учителя.
«Сон» труден тем, что симулировать весь мир несравнимо сложнее, чем эмулировать го.
Сценарий 2028: эффективная длина контекста расширяется так, что ИИ работает с тобой неделю, в конце — thumbs up/down, и при апруве база дистиллирует выученное.
Раунд за раундом ИИ улучшается в доменах, смежных с теми, чему его явно учили — расширение за пределы исходных верифицируемых доменов.
Tacit-знание организаций уже распределено по экономике через ИИ — но он не может его использовать без возврата в веса.
Эта картина переворачивает источник прогресса: модель растёт не от тренировки до релиза, а от опыта в экономике после релиза.

Инсайты

Сэмпл-эффективность и непрерывное обучение — не две проблемы, а одна: данных о работе мало, значит учиться с них надо эффективно, а эффективно — только in-context, который не возвращается в веса.
Воспроизводимость, а не верифицируемость — настоящий гейт прогресса; награда бесполезна, если нельзя дёшево перезапускать домен из одной точки.
Прогресс ИИ распределён неравномерно ровно по карте того, какие домены поддаются детерминированной симуляции, — отсюда «каньон», о стены которого бьётся река прогресса.
Архитектура памяти (как хранить промежуточное представление между активациями и весами) — вероятное узкое место, а не вычисления.
Возможно, бутылочное горлышко глубже архитектуры — в функции потерь: чем именно мы обновляем веса по итогам сессии.
Забывание меньшего — фича, а не баг: способность менять модель «ровно настолько, насколько надо, и ни на йоту больше» критична для обучения без катастрофического забывания.
Сжатие, а не накопление — суть обучения; биология не масштабирует память расширением «черепа», и системы ИИ упрутся в тот же предел.
Обобщение RLVR с короткого горизонта на длинный — открытый эмпирический вопрос, и от ответа зависит, дотянутся ли агенты от «офисных задач» до «построй компанию с нуля».
Деньги — не панацея: даже триллион долларов в RL-средах не гарантирует переход от узких агентов к человекоподобному общему интеллекту.
Самая ценная информация рождается в развёртывании, а не в тренировке, — поэтому архитектура, не умеющая учиться при инференсе, систематически выбрасывает лучшие данные.
Если синтетический «сон» заработает, природа масштабирования сместится с данных реального мира на самопорождаемый опыт — новая ось роста.

Цитаты

«Andy Jesse troverà i tuoi bot e ti chiuderà il culo» — 3:46 Энди Джасси найдёт твоих ботов и прикроет тебе лавочку

«non è sufficiente che un dominio sia verificabile, deve anche essere molto ripetibile» — 3:06 домену мало быть верифицируемым, он должен быть ещё и очень воспроизводимым

«Qual è l'ambiente RL per creare un IA che sia bravo in politica come Lyndon Johnson o brava a costruire un'attività di lancio spaziale come Elon Musk?» — 6:02 Какая RL-среда вырастит ИИ, искушённый в политике как Линдон Джонсон или способный построить ракетную компанию как Илон Маск?

«se gli dessi 100 milioni di dollari... costruirebbe SpaceX per te» — 6:37 если дать ему 100 миллионов долларов... он построит тебе SpaceX

«C'è la lunghezza del contesto in cui ti alleni e c'è una lunghezza del contesto in cui lavori» — 7:05 Есть длина контекста, на которой ты тренируешься, и длина контекста, на которой ты работаешь

«Abbiamo uno studente laureato geniale a cui non è mai stato permesso di fare un vero tirocinio» — 8:16 У нас есть гениальный аспирант, которому ни разу не дали пройти настоящую стажировку

«non c'è una netta separazione nel nostro cervello tra parametri e attivazioni» — 8:53 в нашем мозге нет чёткого разделения между параметрами и активациями

«il modo per migliorare nel tuo lavoro non è ricordare la trascrizione di ogni singola cosa accaduta ogni giorno con perfetta fedeltà» — 14:15 чтобы стать лучше в работе, не нужно помнить дословный транскрипт каждого дня с идеальной точностью

«si modifica il modello solo quanto è assolutamente necessario per raggiungere il risultato e niente di più» — 15:00 модель меняют ровно настолько, насколько необходимо для результата, и ни на йоту больше

«Ma c'è anche un'altra idea molto più speculativa. Chiamiamola sognare» — 15:32 Но есть и куда более спекулятивная идея. Назовём её «сном»

«per ogni passaggio nel gioco reale efficient zero gioca decine di partite simulate nella sua testa» — 16:17 на каждый ход в реальной игре EfficientZero доигрывает десятки симулированных партий в голове

«Si potrebbe chiamare trading o sogno del tempo di test» — 16:50 Это можно назвать сном на этапе теста (test-time dreaming)

«Ogni volta che interagisci con un IA sarà più intelligente... perché hai imparato da tutte queste interazioni con tutti gli altri utenti nel mondo» — 19:22 Каждый раз при общении ИИ будет умнее... потому что он научился на взаимодействиях со всеми остальными пользователями мира

«è molto spaventoso ed emozionante e diverso dal modo in cui lì ha migliora in questo momento» — 19:32 это очень пугающе, и захватывающе, и непохоже на то, как ИИ улучшается сейчас

Факты

Дваркеш оценивает разрыв сэмпл-эффективности моделей и людей примерно в миллион раз (1,1 миллионной), ссылаясь на свой прошлый материал.
По его оценке 30–50% вычислений лаборатории уходит на инференс, и сейчас они не вносят продуктивного вклада в улучшение модели.
Dario (Дарио Амодеи) в совместном подкасте объяснял деградацию на длинных контекстах разрывом между длиной контекста тренировки и работы.
EfficientZero обучен исследователями через пару лет после AlphaZero от DeepMind; цель — экстремальная дата-эффективность на играх Atari.
В примере: при равных двух часах на незнакомую игру Atari EfficientZero, по словам спикера, «вероятно, побьёт новичка-человека».
Модель табуляции Cursor учится онлайн, предсказывая принятые правки — спикер называет «больше 400 в день».
OPSD / self-distillation — техника, которую обсуждают «в последнее время»; по ней Дваркеш записал импровизированную лекцию на доске на iPhone с Сашей Рашем пару недель назад (ссылка в описании).
Спикер прогнозирует «практически бесконечные» окна контекста «через пару лет».
Сценарий непрерывного обучения он привязывает к горизонту 2028 года.
Рекламная вставка: Mercury — финтех-компания с FDIC-страхованием, банковские услуги через Choice Financial Group и Column N.A. (сайт mercury.com).
Спикер упоминает гипотетический «триллион долларов» в RL-средах против нынешних «миллиардов» как порог проверки обобщения.
Текст основан на посте из блога Дваркеша на его сайте (в SRT искажено как «duarkash.com»).

Источники

Dwarkesh Patel — автор, канал и блог-пост, лёгший в основу видео.
Dario Amodei — цитата из совместного подкаста о деградации длинных контекстов.
Sasha Rush — соавтор импровизированной лекции по self-distillation (ссылка в описании ролика).
EfficientZero, AlphaZero, DeepMind — модели и лаборатория, упомянутые как пример дата-эффективности.
Cursor, Codex, Claude — продукты с командами compact/«continuous learning simulacrum».
Mercury — рекламный спонсор (финтех/банкинг).
Исторические фигуры как мысленные бенчмарки: Lyndon Johnson (Техас, 1948), Elon Musk / SpaceX (2000–2002), Sam Walton, Henry Ford, Einstein.

Итог

AGI не выпадет автоматически из триллиона долларов RL-сред — пока опыт сессии не возвращается дёшево и точечно в веса, мы держим гениального аспиранта, которому так и не дали выйти на настоящую работу.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Dwarkesh Patel»

Все видео

Илон Маск – Через 36 месяцев самым дешёвым местом для AI будет космос

Илон Маск – Через 36 месяцев самым дешёвым местом для AI будет космос

Илья Суцкевер – Мы переходим от эпохи масштабирования к эпохе исследований

Илья Суцкевер – Мы переходим от эпохи масштабирования к эпохе исследований

Андрей Карпаты — «Мы призываем призраков, а не строим животных

Андрей Карпаты — «Мы призываем призраков, а не строим животных