Как выглядит следующая парадигма обучения?

Dwarkesh Patel26 июня 202674 1102 45211 мин чтениясегодня, 04:55

Коротко

Дваркеш разбирает ставку всех лабораторий: натренируй ИИ на миллионах верифицируемых задач в тысячах RL-сред — и получишь AGI как побочный продукт, агента-решателя проблем. Он не отрицает прогресс, но бьёт в две связанные дыры: сэмпл-эффективность (модели в ~миллион раз прожорливее людей по данным) и отсутствие непрерывного обучения (выученное в сессии не возвращается в веса). Ключевой барьер — домен мало сделать верифицируемым, его надо сделать воспроизводимым: тысячу параллельных запусков из одной точки можно крутить на коде и матане, но не на реальном мире, где проверка занимает месяцы и не перезапускается. Как выход он предлагает self-distillation (OPSD) — сжатие опыта сессии в маленький точечный апдейт весов — и спекулятивную идею «сна»: модель сама строит симуляторы и тренируется в них, как EfficientZero доигрывает партии в голове. Финал — сценарий 2028: широко развёрнутый ИИ учится прямо в экономике, и каждое взаимодействие делает его умнее за счёт опыта со всеми пользователями сразу.

Главный тезис

Текущая парадигма RLVR упирается не в вычисления, а в то, что большинство реальных доменов не воспроизводимы — поэтому без сэмпл-эффективного непрерывного обучения, возвращающего опыт сессии обратно в веса, AGI из «миллиона верифицируемых задач» сам по себе не вырастет.

Ключевые идеи

  • 0:00ставка лабораторий: натренировать ИИ на миллионах верифицируемых задач в тысячах RL-сред = получить AGI как агента-решателя проблем, способного тянуть открытые задачи неделями вопреки ошибкам.
  • 0:51 — модели в ~миллион раз менее сэмпл-эффективны, чем люди; оптимисты отвечают, что это касается только тренировки.
  • 1:01 — контраргумент оптимистов: тренировка это разовая стоимость, амортизируемая по миллиардам сессий, а важна эффективность модели внутри сессии.
  • 1:38 — если обучение в контексте (in-context) станет достаточно мощным на длинных горизонтах, дистилляция в веса якобы не нужна; плюс окна контекста скоро станут «бесконечными».
  • 2:24computer use прогрессирует медленнее кода и матана, и это диагностический сигнал, а не случайность.
  • 3:06 — домену мало быть верифицируемым, он должен быть воспроизводимым: тысячи параллельных запусков из одной стартовой точки на детерминированном симуляторе.
  • 3:46 — нельзя гонять тысячу агентов через оплату на Amazon — Энди Джасси забанит ботов; отсюда дорогие клоны Slack/Gmail как обходной путь.
  • 6:02 — нет RL-среды, чтобы вырастить политика уровня Линдона Джонсона или основателя ракетной компании уровня Илона Маска.
  • 6:44 — вопрос эмпирический: даст ли переход с миллиардов на триллион долларов в RL-средах человекоподобный общий интеллект в пределах окна контекста.
  • 6:54Дарио (Amodei): деградация на длинных контекстах = разрыв между длиной контекста тренировки и длиной контекста работы; намёк, что короткий RL не обобщается на длинный.
  • 7:4830–50% вычислений лаборатории уходит на инференс, и эти вычисления не улучшают модель — гигантская трата, ведь именно при развёртывании всплывают самые ценные данные.
  • 8:16 — метафора: у нас гениальный аспирант, которому не дают пройти настоящую стажировку, и мы скармливаем ему всё больше учебных кейсов (RL-сред).
  • 8:53 — в мозге нет жёсткого разделения на параметры и активации, череп не расширяется по мере учёбы; обучение это сжатие в веса, а не бесконечный KV-кэш.
  • 12:55OPSD / self-distillation: учим базовую модель давать те же предсказания, что и «ветеран» с накопленным контекстом сессии; не нужна верифицируемая награда, сигнал плотнее RL.
  • 15:32 — спекулятивная идея «сон»: ИИ строит симулятор реальности и прогоняет на порядки больше синтетических сэмплов, как EfficientZero доигрывает десятки партий в голове на каждый реальный ход.
  • 16:42 — если «сон» сработает, это четвёртая ось масштабирования наряду с претренировкой, RL и inference-time compute; «press slash dream» вместо «slash compact».

Почему это важно

Это спор о том, упрётся ли нынешний бум в стену или нет, и где именно. Если Дваркеш прав, то одно лишь заливание денег в RL-среды (с миллиардов до триллиона) не закроет дыры сэмпл-эффективности и непрерывного обучения — а значит, лаборатории (Anthropic, OpenAI и те, кто строит RLVR-пайплайны) ставят на обобщение, которое эмпирически не гарантировано. Выигрывает тот, кто решит архитектурную проблему возврата опыта сессии в веса дёшево и без катастрофического забывания: это превратит развёрнутый по экономике ИИ из статичного продукта в систему, которая учится у всех пользователей сразу. Проигрывают те, кто рассчитывает на «бесконечный контекст» как замену настоящему обучению. Параллельно это объясняет, почему computer use отстаёт от кода — и почему агенты, которые строят клоны приложений, бьют двух зайцев сразу.

Идеи

  • Обучение в контексте использует «быстрые веса», создаваемые на лету механизмом внимания — отсюда сэмпл-эффективность, но плохая масштабируемость по памяти.
  • Заставить ИИ воссоздать целое приложение с нуля = одновременно создать клон-среду для computer use и хорошую RL-задачу для кодинга.
  • Мультимодальные данные в претренировке заметно хуже по качеству, чем текст, — одна из причин отставания computer use.
  • Внешняя петля верификации в реальном мире может требовать месяцев или лет реальных действий, чтобы получить результат.
  • Нельзя «слегка возмутить» действия модели в тысяче параллельных прогонов реального мира, чтобы изолировать, что именно сработало.
  • Нестационарные среды без сброса — известная открытая проблема RL, не новость, но именно она режет реальные домены.
  • Существуют люди с аутистической памятью, помнящие случайные таблицы чисел годами, — и эта же сверхточность парализует способность к абстракции и метафоре.
  • Человеческое непрерывное обучение — не хранение всех наблюдений «на кончике языка», а вырезание правильных интуиций в веса.
  • Градиентные апдейты крайне неэффективны на уровне сэмпла — переход в веса требует жертвовать сэмпл-эффективностью in-context обучения.
  • Все успешно развёрнутые online-модели учили одно и то же у миллионов пользователей; разному у разных пользователей они пока не учатся.
  • Модель табуляции Cursor учится онлайн, предсказывая принятые/отклонённые правки — больше 400 в день; цель — какие правки реально приняты.
  • Раздувание KV-кэша по мере обучения у новых пользователей не масштабируется — это не путь к непрерывному обучению.
  • RL модифицирует очень мало параметров за шаг — и это плюс: меньше риск перезаписать и забыть то, что знает база.
  • Наивный SFT на всех документах сессии бессмысленен: цель не запомнить транскрипт каждого дня, а консолидировать горстку релевантных инсайтов.
  • OPSD тренирует на потокенной разнице вероятностей учитель/ученик — куда более плотный сигнал, чем одна награда, размазанная по всей траектории.
  • OPSD сохраняет свойство SFT, но извлекает только знание, нужное для тех же результатов, а не тянется ко всему распределению учителя.
  • «Сон» труден тем, что симулировать весь мир несравнимо сложнее, чем эмулировать го.
  • Сценарий 2028: эффективная длина контекста расширяется так, что ИИ работает с тобой неделю, в конце — thumbs up/down, и при апруве база дистиллирует выученное.
  • Раунд за раундом ИИ улучшается в доменах, смежных с теми, чему его явно учили — расширение за пределы исходных верифицируемых доменов.
  • Tacit-знание организаций уже распределено по экономике через ИИ — но он не может его использовать без возврата в веса.
  • Эта картина переворачивает источник прогресса: модель растёт не от тренировки до релиза, а от опыта в экономике после релиза.

Инсайты

  • Сэмпл-эффективность и непрерывное обучение — не две проблемы, а одна: данных о работе мало, значит учиться с них надо эффективно, а эффективно — только in-context, который не возвращается в веса.
  • Воспроизводимость, а не верифицируемость — настоящий гейт прогресса; награда бесполезна, если нельзя дёшево перезапускать домен из одной точки.
  • Прогресс ИИ распределён неравномерно ровно по карте того, какие домены поддаются детерминированной симуляции, — отсюда «каньон», о стены которого бьётся река прогресса.
  • Архитектура памяти (как хранить промежуточное представление между активациями и весами) — вероятное узкое место, а не вычисления.
  • Возможно, бутылочное горлышко глубже архитектуры — в функции потерь: чем именно мы обновляем веса по итогам сессии.
  • Забывание меньшего — фича, а не баг: способность менять модель «ровно настолько, насколько надо, и ни на йоту больше» критична для обучения без катастрофического забывания.
  • Сжатие, а не накопление — суть обучения; биология не масштабирует память расширением «черепа», и системы ИИ упрутся в тот же предел.
  • Обобщение RLVR с короткого горизонта на длинный — открытый эмпирический вопрос, и от ответа зависит, дотянутся ли агенты от «офисных задач» до «построй компанию с нуля».
  • Деньги — не панацея: даже триллион долларов в RL-средах не гарантирует переход от узких агентов к человекоподобному общему интеллекту.
  • Самая ценная информация рождается в развёртывании, а не в тренировке, — поэтому архитектура, не умеющая учиться при инференсе, систематически выбрасывает лучшие данные.
  • Если синтетический «сон» заработает, природа масштабирования сместится с данных реального мира на самопорождаемый опыт — новая ось роста.

Цитаты

«Andy Jesse troverà i tuoi bot e ti chiuderà il culo» — 3:46 Энди Джасси найдёт твоих ботов и прикроет тебе лавочку

«non è sufficiente che un dominio sia verificabile, deve anche essere molto ripetibile» — 3:06 домену мало быть верифицируемым, он должен быть ещё и очень воспроизводимым

«Qual è l'ambiente RL per creare un IA che sia bravo in politica come Lyndon Johnson o brava a costruire un'attività di lancio spaziale come Elon Musk?» — 6:02 Какая RL-среда вырастит ИИ, искушённый в политике как Линдон Джонсон или способный построить ракетную компанию как Илон Маск?

«se gli dessi 100 milioni di dollari... costruirebbe SpaceX per te» — 6:37 если дать ему 100 миллионов долларов... он построит тебе SpaceX

«C'è la lunghezza del contesto in cui ti alleni e c'è una lunghezza del contesto in cui lavori» — 7:05 Есть длина контекста, на которой ты тренируешься, и длина контекста, на которой ты работаешь

«Abbiamo uno studente laureato geniale a cui non è mai stato permesso di fare un vero tirocinio» — 8:16 У нас есть гениальный аспирант, которому ни разу не дали пройти настоящую стажировку

«non c'è una netta separazione nel nostro cervello tra parametri e attivazioni» — 8:53 в нашем мозге нет чёткого разделения между параметрами и активациями

«il modo per migliorare nel tuo lavoro non è ricordare la trascrizione di ogni singola cosa accaduta ogni giorno con perfetta fedeltà» — 14:15 чтобы стать лучше в работе, не нужно помнить дословный транскрипт каждого дня с идеальной точностью

«si modifica il modello solo quanto è assolutamente necessario per raggiungere il risultato e niente di più» — 15:00 модель меняют ровно настолько, насколько необходимо для результата, и ни на йоту больше

«Ma c'è anche un'altra idea molto più speculativa. Chiamiamola sognare» — 15:32 Но есть и куда более спекулятивная идея. Назовём её «сном»

«per ogni passaggio nel gioco reale efficient zero gioca decine di partite simulate nella sua testa» — 16:17 на каждый ход в реальной игре EfficientZero доигрывает десятки симулированных партий в голове

«Si potrebbe chiamare trading o sogno del tempo di test» — 16:50 Это можно назвать сном на этапе теста (test-time dreaming)

«Ogni volta che interagisci con un IA sarà più intelligente... perché hai imparato da tutte queste interazioni con tutti gli altri utenti nel mondo» — 19:22 Каждый раз при общении ИИ будет умнее... потому что он научился на взаимодействиях со всеми остальными пользователями мира

«è molto spaventoso ed emozionante e diverso dal modo in cui lì ha migliora in questo momento» — 19:32 это очень пугающе, и захватывающе, и непохоже на то, как ИИ улучшается сейчас

Факты

  • Дваркеш оценивает разрыв сэмпл-эффективности моделей и людей примерно в миллион раз (1,1 миллионной), ссылаясь на свой прошлый материал.
  • По его оценке 30–50% вычислений лаборатории уходит на инференс, и сейчас они не вносят продуктивного вклада в улучшение модели.
  • Dario (Дарио Амодеи) в совместном подкасте объяснял деградацию на длинных контекстах разрывом между длиной контекста тренировки и работы.
  • EfficientZero обучен исследователями через пару лет после AlphaZero от DeepMind; цель — экстремальная дата-эффективность на играх Atari.
  • В примере: при равных двух часах на незнакомую игру Atari EfficientZero, по словам спикера, «вероятно, побьёт новичка-человека».
  • Модель табуляции Cursor учится онлайн, предсказывая принятые правки — спикер называет «больше 400 в день».
  • OPSD / self-distillation — техника, которую обсуждают «в последнее время»; по ней Дваркеш записал импровизированную лекцию на доске на iPhone с Сашей Рашем пару недель назад (ссылка в описании).
  • Спикер прогнозирует «практически бесконечные» окна контекста «через пару лет».
  • Сценарий непрерывного обучения он привязывает к горизонту 2028 года.
  • Рекламная вставка: Mercury — финтех-компания с FDIC-страхованием, банковские услуги через Choice Financial Group и Column N.A. (сайт mercury.com).
  • Спикер упоминает гипотетический «триллион долларов» в RL-средах против нынешних «миллиардов» как порог проверки обобщения.
  • Текст основан на посте из блога Дваркеша на его сайте (в SRT искажено как «duarkash.com»).

Источники

  • Dwarkesh Patel — автор, канал и блог-пост, лёгший в основу видео.
  • Dario Amodei — цитата из совместного подкаста о деградации длинных контекстов.
  • Sasha Rush — соавтор импровизированной лекции по self-distillation (ссылка в описании ролика).
  • EfficientZero, AlphaZero, DeepMind — модели и лаборатория, упомянутые как пример дата-эффективности.
  • Cursor, Codex, Claude — продукты с командами compact/«continuous learning simulacrum».
  • Mercury — рекламный спонсор (финтех/банкинг).
  • Исторические фигуры как мысленные бенчмарки: Lyndon Johnson (Техас, 1948), Elon Musk / SpaceX (2000–2002), Sam Walton, Henry Ford, Einstein.

Итог

AGI не выпадет автоматически из триллиона долларов RL-сред — пока опыт сессии не возвращается дёшево и точечно в веса, мы держим гениального аспиранта, которому так и не дали выйти на настоящую работу.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Dwarkesh Patel»

Все видео