Самообучение LLM, ИИ для биологии, формальная верификация и многое другое | YC Paper Club

Y Combinator12 июня 202685 7352 65112 мин чтениясегодня, 03:55

Ai Программирование Агенты Наука

Коротко

YC Paper Club: шесть докладов о том, как идеи масштабирования из LLM протекают в смежные домены. Франсуа открывает спором о пределах обучения на человеческих решениях — оно запирает модель в подпространстве H, и без AlphaZero-режима (без человеческого приора) до полного пространства решений не дотянуться. Арноб показывает, что Bitter Lesson Саттона уже работает в биологии белка: ESM учат masked-предсказанию на эволюционных последовательностях, и структура, интерпретируемые фичи и атлас из 7 млрд белков возникают сами, без ручного MSA. Люк Бейли разбирает, почему self-play для LLM коллапсирует (conjecturer генерит искусственно громоздкий мусор) и как третья модель-guide это чинит. Дальше — стриминговый RAG для голоса, формальная верификация в Lean (вплоть до нейросетей и GPU-кернелов) и финальный манифест: агентное программирование — это RTS, а не шахматы.

Главный тезис

Общие методы плюс масштаб вычислений и данных бьют ручное доменное знание — и эта закономерность повторяется везре: в белковой биологии, в self-play, в формальной математике и в самой практике написания кода с агентами.

Ключевые идеи

1:50 — AlphaGo смещён человеком, AlphaZero — нет; именно вариант без человеческого приора Франсуа считает дорогой к системам сильно умнее, вплоть до AGI.
2:08 — обучение на известных человеческих решениях запирает тебя в типичном множестве H; даже с рекурсивным test-time compute сэмплировать F минус H не выйдет.
3:02 — ICL ломается: с ростом числа примеров качество не растёт монотонно, скачет вверх-вниз и упирается в длину контекста.
3:19 — LoRA на разном ранге для малого числа примеров работает хорошо, но всё равно вырождается, и в конце упираешься в SFT/GRPO.
4:05 — Магнус Карлсен и 10 000 часов улучшаются тем же алгоритмом, а человек учится иначе: у него выше intelligence per sample.
4:43 — почти нет свидетельств, что мозг берёт транспонирование матрицы весов, значит backprop не единственный путь; отсюда интерес к SPSA и weight perturbation.
7:22 — Bitter Lesson Саттона: 70 лет ИИ выигрывают общие методы, эксплуатирующие масштаб, а не упаковку доменного знания.
10:30 — ESM ничего не сообщают о белке, кроме последовательности из 20 аминокислот; всё остальное должно возникнуть из задачи предсказания токенов.
14:30 — старые ESM2 выходили на плато с ростом параметров, новая модель растёт без плато: нашли правильный inductive bias.
15:48 — AlphaFold взял Нобеля, но сила в ручном MSA (Multiple Sequence Alignment), а это hand-crafted bias, который Bitter Lesson обещает выкинуть.
16:48 — ESMFold выбрасывает MSA и кормит представление модели прямо в предиктор структуры; и точнее на хвостах, и сильно быстрее.
19:13 — на антителах general-модель выигрывает (≈50 против 47 у AlphaFold3), потому что разнообразие антител недосэмплено и MSA там не помогает.
21:40 — sparse autoencoders находят интерпретируемые фичи; пример — «нуклеофильный локоть», конвергентно эволюционировавший мотив, который модель ловит в далёких друг от друга белках.
31:13 — наивный self-play не работает: conjecturer, награждаемый за сложные для solver задачи, генерит искусственно громоздкий и бесполезный мусор.
34:46 — SGS (Self-Guided Self-play) добавляет третью модель-guide, судящую, связана ли синтетическая задача с целевой и не переусложнена ли она.
36:38 — 7B-модель с восьмикратным self-play компьютом дотягивается до уровня старшего брата на 670B.
40:26 — в голосовых агентах RAG добавляет латентность; 10 секунд на ответ неестественны, поэтому ретрив запускают, пока юзер ещё говорит, по частичному запросу.
48:30 — OpenAI заявила решение 80-летней задачи Эрдёша, DeepMind закрывает открытые проблемы в разных областях — и часть с формальной верификацией.
56:05 — Torch in Lean: первый фреймворк, где нейросети пишутся нативно в Lean, с верифицированным floating point и сертификацией робастности; автор обучил GPT-2 char-level прямо в Lean.
57:03 — блог Thinking Machines про недетерминизм при temperature 0 автор формализовал в torch-lean вплоть до уровня GPU-кернелов.
1:00:44 — программирование с агентами ощущается как RTS, а не шахматы: важнее параллелизм и видимость, чем линейное планирование.
1:10:47 — агенты у Люка озвучены реальными звуками юнитов Warcraft/Starcraft и кодированы цветом по типу тикета, чтобы ловить нужное на слух.
1:15:27 — +3.5x PR на инженера в месяц, и ещё +60% после внедрения практик по всей команде.

Почему это важно

Это срез фронтира за один вечер: люди из Biohub, Caltech, Stanford, Meta и стартапов проверяют одну гипотезу на разном материале — масштаб и общие методы вытесняют ручное знание. Для биотеха ставка прямая: ESM и обратный дизайн белков (вроде PDL1-биндера для иммунотерапии рака) обещают сбить стоимость разработки лекарств, а данные растут экспоненциально, потому что эволюция четыре миллиарда лет писала претрейн-корпус. Для лабораторий формальной верификации (Harmonic, DeepMind, OpenAI) приз — доверие, которого вероятностные модели дать не могут. А для софтверных команд вроде channel AI выигрывают те, кто перестроит экономику работы под дешёвые токены и дорогое человеческое внимание. Проигрывают подходы, заточенные под человеческий приор и ручные фичи — они упираются в плато первыми.

Идеи

Норм Браун в недавнем подкасте держится за то, что человеческое H-пространство можно рекурсивно докрутить test-time компьютом — Франсуа открыто сомневается, что так дотянешься до всего F.
Память как поле живёт горячей темой полтора года: от Mem Zero до рекурсивных языковых моделей и динамического чанкинга.
Меньшая модель иногда выигрывает по intelligence per watt — отдельная ось, не сводимая к чистому масштабу.
Птицы навигируют через железо (в печени) — пример био-инсайта, которым Франсуа иллюстрирует, что учиться стоит у мозга, а не только у backprop.
Белок — это строка в алфавите из 20 букв, и сама последовательность однозначно задаёт уникальную 3D-форму.
Данные ESM подскочили с ~50 млн образцов до 2.8 млрд, в основном за счёт метагеномики: ДНК из почвы, океана, кишечника, от никогда не культивированных организмов.
Осэмплено меньше 1% известного разнообразия белковых последовательностей — про разнообразие, накопленное эволюцией, и говорить нечего.
Атлас из 7 млрд свёрнутых белков — крупнейшая база структур, «Google-карты белков», полученные как побочный продукт модели.
Иерархия интерпретируемых фич выстраивается сама: отдельные аминокислоты внизу, структурные мотивы, домены, функциональные сайты выше.
Чтобы получить задачу с 50% решаемости, conjecturer может выдать трёхстраничный кошмар, где solver ошибётся в мелочи — формально сложно, по сути бесполезно.
Baseline RL на 3000 формальных задач в Lean выходит на плато около 60%.
В голосе галлюцинацию труднее поймать на слух, чем глазами в тексте, поэтому к ней относятся серьёзнее.
Fixed-RAG режим режет аудио на блоки и гоняет ретрив поблочно; альтернатива — дообучить модель самой решать, когда дёргать RAG.
Стриминговый RAG срезал латентность на ~0.5 c на синтетике и почти на 1.5 c на человеческой речи.
GPT-f (2020) — первая генеративная LM для автоматического доказательства теорем, и прогресс с тех пор экспоненциальный.
Lean — не только пруверу, но и полноценный функциональный язык программирования; люди делают на нём игры.
Mathlib — миллионы строк формальной математики от топологии до алгебраической геометрии.
Воркеры пушат до упора перед запросом фидбэка: их время дёшево, твоё дорого, исправить можно потом.
Звуковой дизайн RTS — готовый инструмент для оркестрации флота агентов: сигнал «на базу напали» не требует смотреть на экран.
APM меряют не по кликам, а по tool calls в минуту; но Warcraft 3 показывает, что высокий APM сам по себе не делает тебя лучшим игроком.
Документировать агрессивно выгоднее, чем держать знание в коде: вики-граф дешевле для агента, чем вытягивать контекст из исходников.
Всю презентацию Люк собрал тем же конвейером, что описывает: тикет → Claude → 15 правок → откат знаний обратно в базу.

Инсайты

Обучение на человеческих решениях — это выбор подпространства, а не всего пространства; режим без человеческого приора нужен именно чтобы выйти за его границы.
Bitter Lesson — не разовое наблюдение про шахматы и Go, а переносимая закономерность: в новом домене ручное знание выигрывает на старте и проигрывает в пределе.
Решает не объём данных сам по себе, а архитектурный inductive bias: он определяет, упрётся ли модель в плато или продолжит масштабироваться.
Эволюция — это уже оплаченный претрейн на четыре миллиарда лет; во многих научных доменах мы всё ещё в начале кривой данных, а не у её стены.
Ручные фичи помогают там, где данных много, и отказывают на хвостах распределения — ровно там, где они нужнее всего.
Reward-хакинг структурно неизбежен при косвенной награде: оптимизируется измеримая буква задачи, а не её дух.
Self-play без привязки к «хорошему» распределению задач расходится; нужен grounding в реальные задачи и отдельный судья качества.
В голосовом интерфейсе цена ошибки и латентность сдвигают всю архитектуру от «дождись конца запроса» к стримингу и спекулятивному ретриву.
Формальная верификация даёт то, чего нет у вероятностных систем: невозможность сжульничать и проверяемое доверие, которое масштабируется.
Когда генерация кода становится дешёвой, узкое место переезжает на гарантии корректности — отсюда сдвиг от vibe coding к verified coding.
Агенты переворачивают экономику разработки: дёшевы токены, дорого человеческое внимание, поэтому оптимизируешь параллелизм и видимость, а не идеальность каждого шага.
Интерпретируемость — не отдельная дисциплина поверх модели, а свидетельство, что масштабное самообучение спонтанно раскладывает мир на осмысленные оси.

Фреймворки

Симметричный vs асимметричный self-play (Люк Бейли): в симметричном (AlphaGo) старая версия агента играет соперника; в асимметричном conjecturer порождает всю RL-задачу, а solver её решает. SGS добавляет третий компонент — guide, оценивающий связь и сложность.
Три понятия верификации программ (Роберт Джордж): спецификация (что код должен делать) → код → доказательство, что код удовлетворяет спецификации.
Программирование как RTS (Люк Ортвайн): макро по умолчанию, микро в зачёт; максимизируй параллелизм системы и своего внимания; держи высокую видимость и корректирующий фидбэк; трать все ресурсы (токены), не оставляй простаивать.

Цитаты

«alpha zero yang tidak bias oleh manusia yang berkelana adalah cara kita untuk mendapatkan sistem yang jauh lebih cerdas adhu, bahkan berani mengatakan agi» — 1:53 Именно AlphaZero, не смещённый блуждающим человеком, — наш путь к куда более умным системам, рискну сказать, к AGI

«pelatihan pada solusi manusia yang diketahui akan membatasi Anda pada beberapa set H yang khas» — 2:08 Обучение на известных человеческих решениях запрёт тебя в неком типичном множестве H

«performanya tidak meningkat secara monoton» — 3:02 Качество не растёт монотонно

«metode yang menang adalah metode yang umum yang benar-benar mengeksploitasi dasar-dasar seperti penskalaan komputasi dan data» — 7:29 Выигрывают общие методы, эксплуатирующие фундамент — масштабирование вычислений и данных

«kita tidak pernah memberitahu apapun tentang protein di luar urutannya» — 10:30 Мы никогда не сообщаем о белке ничего, кроме его последовательности

«Itu seperti peta Google dari protein, dan itu semua diproduksi sebagai produk sampingan dari model» — 22:58 Это как Google-карты белков, и всё получено как побочный продукт модели

«semua konjekturan harus dilakukan adalah menghasilkan masalah yang sulit untuk model solver» — 32:23 Всё, что должен делать conjecturer, — порождать задачи, трудные для solver

«saya tidak dapat mengabaikan atau menipu kernel pada dasarnya seperti Anda harus sepenuhnya 100%» — 53:14 Я не могу обойти или обмануть kernel — нужно доказать на все сто

«kita harus beralih dari pengkodean yang benar-benar menghapus menjadi pengkodean yang sangat benar» — 55:42 Надо перейти от vibe-кодинга к кодингу, который доказуемо верен

«lebih baik bagi mereka untuk mendorong sejauh yang mereka bisa sebelum meminta umpan balik» — 1:03:14 Им лучше продавить как можно дальше, прежде чем просить обратную связь

«Anda tidak boleh membiarkan token cloud Anda tidak terpakai. Itu benar-benar ekonomi yang tidak efisien» — 1:13:44 Нельзя оставлять токены Claude неиспользованными — это неэффективная экономика

«kemenangan makro sudah default, kemenangan pikro dihitung sebagai prinsip RTS lainnya» — 1:07:54 Победа на макро — по умолчанию, микро идёт в зачёт, как и в любой RTS

Факты

Площадка — YC Paper Club от Y Combinator; шесть докладчиков.
Арноб — PhD 2-го года, со-научрук Стив Куэйк (Quake, в транскрипте «Steve Kuek»), директор Biohub в Стэнфорде; докладывает свежую статью из Biohub.
Линия моделей ESM началась в Meta AI, затем собственная компания; новое семейство, по словам докладчика, до ~300 млрд параметров (цифра спорная, проверить).
ESM2 обучали примерно на 50 млн образцов; новая модель — на 2.8 млрд за счёт метагеномики.
Осэмплено менее 1% известного разнообразия белковых последовательностей.
На задаче дизайна антител ESMFold даёт ≈50 против ≈47 у AlphaFold3.
Финальный атлас — до 7 млрд свёрнутых белков, заявлен как крупнейшая база структур.
AlphaFold получил Нобелевскую премию; его сила — в ручном MSA.
Люк Бейли — статья «Scaling Self-Play with Self-Guidance», научруки Tatsu и др.; 3000 формальных задач в Lean, baseline ~60%, сравнение 7B vs 670B при 8x компьюта.
Голосовая статья — около года, авторы из группы в Meta; латентность ниже на ~0.5 c (синтетика) и почти на 1.5 c (человеческая речь).
Роберт Джордж — PhD 3-го года в Caltech; упоминает золото IMO 2024, заявку OpenAI о 80-летней задаче Эрдёша, DeepMind, прувер Aristotle от Harmonic.
GPT-f (2020) — Станислас Полу и Илья Суцкевер, OpenAI; первая генеративная LM для доказательства теорем.
Mathlib в Lean — миллионы строк (докладчик не помнит точное число).
Люк Ортвайн — CS в Гарварде, рост WeChat в 2012–2015, прозвище «Гонконгский лев», CEO channel AI; рост вывода PR на инженера: +3.5x в месяц и ещё +60% после внедрения по команде.

Источники

Richard Sutton, «The Bitter Lesson»
AlphaGo / AlphaZero, DeepMind
ESM / ESMFold, Biohub (ex-Meta AI)
AlphaFold / AlphaFold3, DeepMind
Mem Zero, рекурсивные языковые модели (память)
Подкаст с Норм Брауном
Технический отчёт Composer 2 (Cursor)
«Scaling Self-Play with Self-Guidance» (Luke Bailey et al.)
Статья про streaming RAG для голоса (группа в Meta)
GPT-f — Polu & Sutskever, 2020
Lean / Mathlib, прувер Aristotle (Harmonic)
Блог Thinking Machines о недетерминизме при temperature 0
Bridge (доказательство корректности кода), Torch-in-Lean
Sparse autoencoders / механистическая интерпретируемость (подход в духе Anthropic)

Рекомендации

Арноб: сейчас хороший момент идти в ML для биологии — модели ещё простые, а данные растут экспоненциально, и темп роста сам ускоряется.
Люк Ортвайн: используйте git worktrees для параллельной разработки; гоняйте агентов в dangerous-skip-permissions внутри песочницы; документируйте агрессивно в вики-граф знаний; смешивайте тикеты разного размера и максимизируйте параллелизм, не идеальность шага.

Итог

Один и тот же урок — масштаб и общие методы съедают ручное знание — звучит из шести разных ртов: в белке, в self-play, в Lean и в самом ремесле программирования с агентами.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Y Combinator»

Все видео

Андрей Карпатый: софт снова меняется

Андрей Карпатый: софт снова меняется

Конкуренция — удел неудачников. Питер Тиль (How to Start a Startup 2014: 5)

Конкуренция — удел неудачников. Питер Тиль (How to Start a Startup 2014: 5)

Создатель OpenClaw: почему 80% приложений исчезнут

Создатель OpenClaw: почему 80% приложений исчезнут