Коротко
Это запись первого YC Paper Club в Y Combinator, где разобрали пять свежих ML-статей: спекулятивное декодирование нового типа (SSD), диффузионный Model Predictive Control для робототехники (DMPC), мировые модели в духе JEPA/LeJEPA Яна Лекуна, статью Эндрю Гордона Уилсона о том, что генерализация в deep learning не мистична (PAC-Bayes), и работу о предобучении в режиме «данных мало, компьюта бесконечно». Сквозная мысль первого докладчика: инференс перестаёт быть статьёй расходов и становится «полномочием» (authority) — кто умеет дёшево и быстро гнать токены, тот и определяет, какие алгоритмы вообще возможны. SSD выносит черновик и верификацию на разное железо и запускает их одновременно, обгоняя vLLM и SGLang и выдавая ~300 токенов/сек для Llama 3 70B на 4×H100. Уилсон через PAC-Bayes и компрессию объясняет, почему оверпараметризация улучшает генерализацию, а не ломает её. Последняя работа показывает, что при дефиците данных классические трюки (регуляризация, ансамблирование, дистилляция) дают до 17× выигрыша по данным.
Главный тезис
Фронтир ИИ смещается от грубого масштабирования к алгоритмической и системной изобретательности: инференс, мировые модели, теория генерализации и обмен компьюта на данные — это рычаги, где правильный приём бьёт лишние параметры.
Ключевые идеи
- 5:59 — инференс через 1–3 года будет восприниматься не как cost/benefit, а как полномочие: метод, позволяющий быстро гнать больше токенов, оказывается «наверху», потому что упирается всё в пропускную способность инференса, а не в обучение.
- 8:56 — спекулятивное декодирование работает потому, что верифицировать дешевле, чем генерировать: маленькая модель авторегрессивно пишет черновик, большая проверяет все токены за один forward pass.
- 12:06 — ядро SSD: убрать последовательную зависимость vanilla-спекуляции, разнести черновик и верификацию на разное железо и запустить их одновременно, угадывая наиболее вероятный результат проверки заранее.
- 17:09 — практический итог: ~300 токенов/сек для Llama 3 70B на 4×H100, обгоняя vLLM и SGLang и по латентности, и по throughput.
- 19:11 — Model Predictive Control (он же receding horizon control) использует модель динамики (world model) и планировщик, чтобы на тест-тайме подставлять новые reward-функции.
- 20:39 — DMPC учит диффузией многошаговые action proposals и многошаговую модель динамики, что позволяет обойтись простым sampling-based планировщиком и не накапливать ошибку.
- 27:56 — главное преимущество факторизации «action proposal + dynamics»: на инференсе меняешь reward и получаешь новое поведение (прыжок вместо бега), а при сломанной динамике (травмированная нога) дообучаешь только модель динамики.
- 30:44 — мировые модели названы «вопросом на миллиард долларов» буквально: отсыл к мартовскому вкладу ~$1.03 млрд в направление world models у Лекуна.
- 32:29 — идея world model не нова: Ричард Саттон описал её ещё в 1990-х, нынешний хайп — «новая упаковка старой идеи».
- 38:23 — JEPA предсказывает не пиксели, а латентное эмбеддинг будущего состояния, и вся «мощная работа» происходит в латентном пространстве.
- 40:02 — разбор LeJEPA-подхода сводится к тезису: новизна — это по сути хорошая регуляризация (термин в SRT — «SIG», требование гауссовости латентов по одномерным срезам), а не принципиально новый механизм.
- 41:17 — на маленьких 2D-задачах самодельная world model выигрывает, но в 3D побеждает Dino world model за счёт мощного предобученного бэкбона; зато латентная модель в 50× быстрее, влезает в одну карту <24 ГБ, ~15M параметров.
- 44:28 — расхожее мнение «генерализацию нельзя понять» (оверпараметризация, benign overfitting, double descent) Уилсон опровергает классической PAC-Bayes-теорией.
- 49:53 — по принципу no free lunch единственный источник обобщения — inductive bias; нейросети надо понимать как выразительные модели с «мягким» inductive bias.
- 50:34 — две главные оси прогресса ИИ: intelligence per watt и intelligence per sample; по второй мы катастрофически отстаём от людей.
- 55:08 — последняя статья ставит канонический эксперимент: данных мало (200M токенов DCLM), компьюта бесконечно — как тогда предобучать.
- 58:46 — при дефиците данных ансамбль из мелких моделей бьёт одну большую при равном числе параметров; регуляризация + ансамблирование + дистилляция дают вплоть до 17× выигрыша по данным.
Почему это важно
Все пять докладов — про один сдвиг: на исходе эпохи «просто увеличь модель». Pre-training-данные интернета растут на ~3% в год, а компьют под них — в 4–5 раз, поэтому ценность каждого токена и каждого инференс-цикла переоценивается. Выигрывают те, кто умеет конвертировать избыточный компьют в качество через алгоритмы (ансамбли, дистилляция, спекулятивный инференс), и те, кто строит мировые модели как фундамент для агентов — отсюда упомянутые игроки: OpenAI, Anthropic, Google DeepMind, Tesla, xAI, Thinking Machines, Cursor, лаборатории Криса Ре и Перси Лианга в Стэнфорде, Q-Labs (VC-стартап), а также миллиардные ставки Лекуна на world models. Само событие — попытка YC собрать вокруг себя ту часть Bay Area AI-сцены, что никогда не проходила через инкубатор.
Идеи
- Спекуляция — не изобретение LLM, а низкоуровневая идея из CS: спекулятивное исполнение в CPU работает по той же логике «сделай заранее, отмени если ошибся».
- SSD меняет flops на латентность: лишние вычисления черновика «прячутся» за время верификации большой модели.
- Бонус-токен верификации можно угадать из распределения отвергнутых черновых токенов — те, что модель решила не сэмплить, и есть кандидаты в бонус.
- Угадывать результат верификации удаётся в 80–90% случаев — этого достаточно для ускорения.
- Cache miss в SSD нельзя тупо лечить откатом к обычной спекуляции; есть нетривиальные trade-off'ы между batch size и долей провальных верификаций.
- Длину префикса для черновика не нужно приравнивать к длине префикса для compute — асимметрия повышает cache hit rate.
- Танишк признаётся, что занялся инференсом не ради экономии, а «по праву» интереса — это его единственный инференс-проект, до этого занимался обучением.
- DMPC: мощный инструмент моделирования (диффузия) позволяет упростить планировщик — сложность уходит из алгоритма поиска в модель.
- Факторизация «action proposal ⟂ dynamics» позволяет менять только динамику при изменении среды, сохраняя политику.
- World model названа «новой упаковкой» старой идеи Саттона из 1990-х — критика хайпа вокруг термина.
- Наблюдение (observation) с сенсоров заменяет «состояние» (state), т.к. в реальном мире чистого состояния не бывает.
- High-dimensional world models (картинки, лидар) медленны, и оптимизационный ландшафт полон «дешёвых» паразитных минимумов, которые модель эксплуатирует вместо честного решения.
- Спор model-free vs model-based подан как живая дискуссия research- и стартап-сообщества, а не решённый вопрос.
- Свидетельства, что модели world-models возникают внутри весов даже model-free сетей, нарастают.
- LeJEPA-регуляризатор SIG: берёшь одномерные срезы высокоразмерного эмбеддинга и требуешь, чтобы по каждому распределение было гауссовым — это «здоровый» латент без коллапса.
- Push-T и Push-Cube — игрушечные 2D-среды, на которых демонстрируют world models; код собран «на коленке» за несколько часов.
- Квантификация неопределённости («surprise») — недооценённая суперсила world models: агент знает, насколько ошибаются его прогнозы.
- PAC-Bayes раньше «не работал» на оверпараметризованных моделях из-за неправильного применения compression term, а не из-за дефекта теории.
- Плоские минимумы занимают больше объёма в пространстве параметров, чем острые → они «компрессируемее» → оверпараметризация склонна к ним → лучше генерализует.
- Регуляризованная полиномиальная модель используется как наглядная мини-иллюстрация benign overfitting.
- В последней статье регуляризация — это weight decay примерно в 30× больше, чем при compute-optimal предобучении.
- Power-law у регуляризованного рецепта имеет экспоненту 1 по числу параметров (вывод из data-constraint теории) и асимптоту ~3.43.
- «Giant scaling recipe» берёт двойной предел: сначала ансамбли уводят в асимптоту, потом второй scaling law по самим ансамблям.
- Дистилляция 8 ансамблей (2.4B параметров) в одну плотную 300M-модель сохраняет 83% выигрыша по loss — убирает инференс-оверхед.
- Self-distillation неожиданно работает и связан с ансамблированием (предварительная гипотеза: self-distill ≈ два независимых сегмента ансамбля).
- Data scaling laws показывают почти одинаковые экспоненты и асимптоты при 4 разных объёмах токенов → выигрыш по данным не зависит от исходного числа токенов и должен держаться вплоть до 10T+ токенов.
- На continued-pretraining (CPT 3B-модели) при корпусе 73B токенов те же приёмы позволяют обойтись 4B токенов — 17× экономия.
- Хост признаётся, что место (Woodside/YC) лично для него — почти сакральное, и весь клуб — попытка «вернуть пионерский дух».
Инсайты
- Экономика ИИ переинвертируется: дефицитным ресурсом становятся не параметры и не данные сами по себе, а пропускная способность инференса — она задаёт потолок того, какие алгоритмы вообще практичны.
- Асимметрия «генерировать дорого / проверять дёшево» — это структурное свойство трансформера, и любой выигрыш в инференсе в итоге паразитирует именно на ней.
- Когда модель достаточно мощная, сложность переезжает из алгоритма (планировщик, тюнинг) в саму модель — простой планировщик поверх сильной диффузии бьёт сложный поверх слабой.
- Факторизация системы на ортогональные компоненты (proposal vs dynamics, latent vs decoder) даёт модульную адаптацию: чинишь сломавшийся блок, не трогая остальное.
- Многие «новые» прорывы — ребрендинг идей 1990-х; прогресс часто в масштабе и упаковке, а не в принципиально новом механизме.
- «Мистика» в ML обычно означает неправильно применённую старую теорию, а не отсутствие теории: PAC-Bayes объясняет оверпараметризацию, если корректно считать компрессию.
- Генерализация возможна только за счёт inductive bias (no free lunch) — значит, инженерия будущего — это инженерия правильных смещений, а не отказ от них.
- «Мягкий» inductive bias (выразительное пространство гипотез + предпочтение простых решений) — золотая середина между жёсткой моделью и бесструктурной гибкостью.
- Избыток компьюта при дефиците данных делает рациональными классические приёмы статистики (ансамбли, регуляризация, дистилляция), которые в эпоху «данных в избытке» считались устаревшими.
- Асимптота scaling law — это не предел развития, а валюта сравнения рецептов: рецепт с более низкой асимптотой при бесконечном компьюте честно лучше.
- Mode-collapse в латентных пространствах лечится не хитрыми эвристиками, а одним честным регуляризатором на распределение — приведение к гауссиане вместо набора трюков.
- Способность модели оценивать собственную ошибку (uncertainty) — функционально отделяет model-based агентов от model-free и важнее сырой точности для реального мира.
Фреймворки
Три категории трюков против mode-collapse в world models (по разбору JEPA-статьи):
- Эвристики в эмбеддинг-пространстве, навязывающие «здоровое» состояние латента и останавливающие коллапс.
- Переиспользование готовых компонент (автоэнкодер, диффузия, видеомодель) как суррогата world model с правильным conditioning.
- Вынос части данных из секции модели, исключающее коллапс на уровне постановки.
Спектр диффузионных агентов (от behavior cloning к планированию):
- Diffusion Policy — кондиционируется на состояние, генерит действие; не выходит за рамки behavior cloning, нужен «fine-tuning».
- Diffuser — совместно моделирует state и action (implicit world modeling + planning).
- Decision Diffuser — только observation learning, можно учиться из видео.
- Diffusion MPC — action proposal + dynamics + планировщик, позволяет менять reward и динамику на рантайме.
Лестница рецептов предобучения при дефиците данных: standard recipe (быстро оверфитит) → тяжёлая регуляризация (асимптота, weight decay ×30) → ансамблирование → регуляризация+ансамблирование → giant scaling recipe (двойной предел) → дистилляция/self-distillation для удешевления инференса.
Цитаты
«inference will be seen as an authority» — 5:59 инференс будет восприниматься как полномочие (право), а не как затрата
«The main reason for speculating is that it is easier to verify than to generate» — 8:56 Главная причина спекуляции в том, что проверять легче, чем генерировать
«when you are in San Francisco House Party, without the knowledge of the person standing next to you and dancing, you will know how to sample 300 tokens per second for Lama 370B for 4H100» — 17:09 на вечеринке в Сан-Франциско, пока сосед даже не подозревает, ты уже умеешь выдавать 300 токенов/сек для Llama 3 70B на 4×H100
«The question in this presentation is really a billion dollar question. This is not a joke» — 30:44 Вопрос этого доклада — буквально вопрос на миллиард долларов. Это не шутка
«This is just a new announcement or packaging for the old idea» — 32:18 Это просто новая подача или упаковка старой идеи
«So, I will say that this paper is just a very good regularization» — 40:02 Я бы сказал, что эта статья — просто очень хорошая регуляризация
«Dino world model wins as soon as you go to 3D» — 41:17 Dino world model выигрывает, как только переходишь в 3D
«When I talk to people in this field, they will say that generalization is a mystery» — 44:28 Когда я говорю с людьми в этой области, они отвечают, что генерализация — это загадка
«according to the No free lunch principle, the only way to get results in the learning environment is inductive bias» — 49:53 по принципу no free lunch единственный способ получить результат в обучении — это inductive bias
«Two main problems that we have to address in AI are intelligence per watt and intelligence per sample» — 50:34 Две главные проблемы ИИ — это интеллект на ватт и интеллект на сэмпл
«When data is limited, but when there are no limits in the computing field, how should we do pre-training?» — 53:13 Когда данных мало, но компьют не ограничен — как тогда предобучать?
«it is better to create a smaller model ensemble than a larger model when there are data limits» — 58:46 при дефиците данных лучше собрать ансамбль из мелких моделей, чем одну большую
«This is a victory of about 17 times the data collection» — 1:05:11 Это выигрыш примерно в 17 раз по данным
«This is a dream come true. I am in one of my favorite places» — 1:06:15 Это сбывшаяся мечта. Я в одном из любимых мест
Факты
- Среди ~140 компаний батча Winter 2016 YC, по словам хоста, 10–15 стали единорогами; упомянуты Astranis, Deepgram (и предположительно W&B — в SRT «WPY»).
- Хост утверждает, что в ранние дни OpenAI её основатели (упомянуты Sam Altman, Andrej Karpathy, Wojciech Zaremba, Greg Brockman) звонили и спрашивали, над какими задачами работать.
- Tanishq — аспирант Стэнфорда; доклад про спекулятивное декодирование и движок инференса собственной разработки (SSD).
- SSD выдаёт ~300 токенов/сек для Llama 3 70B на 4×H100, обгоняя vLLM и SGLang.
- Угадывание результата верификации в SSD работает в 80–90% случаев.
- Stanis — research scientist в Google DeepMind, работа DMPC сделана ~2 года назад, до перехода к hardcore-робототехнике; сейчас занимается world models для робототехники.
- В марте в направление world models у Яна Лекуна вложено ~$1.03 млрд (по словам докладчика).
- Латентная world model в разборе: в ~50× быстрее конкурентов, влезает на одну карту <24 ГБ RAM, ~15M параметров, тестовая среда «2 room».
- JEPA = Joint Embedding Predictive Architecture; разбираемый регуляризатор обозначен в SRT как «SIG» (требование гауссовости латентов по одномерным срезам).
- Статью о генерализации написал Andrew Gordon Wilson; докладчик Yash из Q-Labs работает с Уилсоном; ключевые понятия — PAC-Bayes, double descent, benign overfitting, flat minima.
- Регуляризованный рецепт в data-constrained статье: weight decay ~в 30× больше, чем при compute-optimal; экспонента power-law по числу параметров = 1, асимптота ≈ 3.43.
- Канонический сетап: 200M токенов DCLM (обычные веб-данные); giant scaling recipe даёт ~5× эффективности по данным против обычного рецепта.
- Дистилляция 8 ансамблей по 2.4B в одну плотную 300M-модель сохраняет 83% улучшения loss.
- Continued pre-training: корпус 73B токенов, но с ансамблированием/дистилляцией достаточно 4B токенов → ~17× экономия данных.
- Докладчица последней работы (KV / «Koo Koo») работает с Suhas и Percy/«Marie Ports» в лаборатории Криса Ре; ссылается на Chinchilla scaling laws и оценку роста человеческих данных в интернете ~3%/год против роста компьюта ~4–5×.
Источники
- Andrew Gordon Wilson — статья «Deep learning is not mysterious» (генерализация, PAC-Bayes).
- Richard S. Sutton — описание world model в 1990-х (reinforcement learning).
- Yann LeCun — JEPA / world models (LeJEPA-подход с SIG-регуляризатором).
- Chinchilla Scaling Laws — расчёт compute-optimal предобучения.
- Бенчмарки/датасеты: DCLM, MNIST, Penn Treebank; среды Push-T, Push-Cube, «2 room».
- World models из разбора: PLDM (planning with latent dynamic models), DINO-WM, Dreamer (DeepMind), TD-MPC (temporal difference MPC).
- Движки инференса для сравнения: vLLM, SGLang.
- Лаборатории и люди: Chris Ré, Percy Liang, Chris Manning (упомянут как пример учёного с сотнями тысяч цитирований); докладчики Tanishq, Stanis, Yash, KV/Suhas.
- Организации-контекст: OpenAI, Anthropic, Google DeepMind, Tesla, xAI, Thinking Machines, Cursor, Q-Labs, Y Combinator.
Итог
Пять статей об одном: на фронтире ИИ выигрывает не тот, кто добавил параметров, а тот, кто переизобрёл сам стек — превратил инференс в рычаг, упростил планирование за счёт сильных моделей и обменял избыточный компьют на дефицитные данные.