Чёрная дыра данных в центре AI

Dwarkesh Patel19 июня 202693 6683 3759 мин чтениясегодня, 20:20

Коротко

Главный двигатель прогресса ИИ — не архитектура и не трюки обучения, а данные: их объём, ширина распределения и компьют, который их перемалывает. Современные модели обучены на триллионах токенов, тогда как человек за всю жизнь видит порядка 200 миллионов — поэтому сравнивать «бедную» человеческую жизнь с холодно стартующей LLM, начинающей со случайной инициализации, нечестно. Спикер настаивает: эволюция уже подобрала за нас гиперпараметры и loss-функцию, а геном весит всего 3 ГБ, так что человеческая sample efficiency на тысячи-лакхи раз выше, и простым увеличением размера модели этот разрыв не закрыть. RL-обучение упирается в дорогую индустрию разметки — десятки тысяч человеческих экспертов на каждый навык, рынок которой растёт от миллионов к десяткам миллиардов. Но лабам человеческая эффективность по данным и не нужна: модель обучают раз гигаваттным прогоном, а плоды разворачивают в каждой сессии — поэтому белые воротнички автоматизируются, а настоящее узкое место — sample efficiency самого ИИ-исследователя.

Главный тезис

Прогресс ИИ держится на данных — их распределении и объёме, а не на хитростях архитектуры; человек радикально эффективнее по данным потому, что эволюция уже сделала за него предобучение, и это та самая разница, которую лабам предстоит взломать.

Ключевые идеи

  • 0:19 — главный способ улучшать ИИ: накидывать данные и наращивать компьют для их обработки, остальное вторично.
  • 0:39RL работает как предобучение наоборот: модель учат предсказывать удачные роллауты так же, как раньше предсказывали текст интернета.
  • 0:53 — для каждого домена нужны сотни живых экспертов, которые создают примеры и проговаривают ход своих мыслей; без этого приора в модели решение не найти.
  • 1:05 — реальность разметки видна в вакансиях Mercor и Surge: юристы пишут настоящие M&A-филинги, профильные специалисты полируют документы для обучения.
  • 2:17 — правильная метафора модели не «человек, освоивший много навыков», а Франкенштейн, бережно сшитый из размеченных кусков.
  • 2:24 — по Epoch открытые модели отстают на четыре месяца, и причина — именно данные.
  • 2:34 — данные дистиллируются из публичных API, а гиперпараметры и архитектурные оптимизации — нет; будь главным драйвером последнее, догонять было бы куда труднее.
  • 3:07 — ИИ выглядит как яркая звезда, но в центре — невидимая чёрная дыра данных, которую легко недооценить.
  • 3:23 — человек за жизнь видит ~200 млн токенов, фронтир-модель — триллионы; масштаб несопоставим.
  • 4:34 — сравнивать скудные данные жизни с холодно стартующей LLM на случайной инициализации — несправедливо.
  • 4:46 — геном всего 3 ГБ, кодирующих 1-2%; эволюция уже подобрала гиперпараметр и loss-функцию, человек лишь достраивает связи в мозге.
  • 5:58 — возражение про мультимодальность бьётся фактом: слепоглухие сохраняют тот же интеллект, значит сенсорные токены — не источник ума.
  • 6:35 — в мозге ~100 трлн синапсов, во фронтир-модели ~5 трлн параметров; но Chinchilla показывает, что апскейл не закроет разрыв.
  • 7:23 — человек на тысячи-лакхи раз эффективнее по данным; люди просто лежат вне scaling-кривой.
  • 9:56 — ИИ не нужна человеческая эффективность: учишь раз гигаваттным прогоном, разворачиваешь в каждой сессии — поэтому обучать выгодно даже на «обычных» задачах.
  • 10:44 — несмотря на автоматизацию, спрос на софтвер-инженеров будет выше сегодняшнего из-за комплементарности с ИИ.

Почему это важно

Если двигатель прогресса — данные, а не секретный соус архитектуры, то конкурентный ров фронтир-лаб мельче, чем кажется: всё, что отдаётся через публичный API, можно дистиллировать, и открытые модели отстают лишь на месяцы. Выигрывает индустрия разметки — Mercor, Surge и им подобные, чей рынок растёт от миллионов к десяткам миллиардов, потому что каждый новый навык требует сотен живых экспертов. Лабам это задаёт приоритет: сперва автоматизировать белые воротнички (где обучить один раз и развернуть везде дёшево), а затем взломать sample efficiency самого ИИ-исследователя — именно это, а не размер модели, спикер считает настоящим узким местом на пути к быстрому развитию.

Идеи

  • RL — это по сути то же предобучение, только цель предсказания смещена с интернет-текста на удачные роллауты.
  • Чтобы RL вообще запустился, в модели уже должен лежать приор, способный наткнуться на правильное решение — иначе искать не от чего.
  • Данные должны быть не просто доменными, а доменными в огромном количестве: сотня экспертов на один навык.
  • Эксперты не просто дают ответ — они разворачивают цепочку рассуждений, и именно это попадает в обучение.
  • Рынок специализированной разметки и RL-сред исчисляется уже десятками миллиардов и растёт.
  • Открытые модели отстают на ~4 месяца — ровно столько нужно, чтобы вытащить данные фронтира через API.
  • То, что отставание измеряется месяцами, само по себе доказывает: дело в данных, а не в неповторимых трюках.
  • Геном в 3 ГБ — это не чертёж готовой нейросети, а удачный набор гиперпараметров и функции потерь.
  • Эволюция — это и есть предобучение человечества; жизнь отдельного человека — лишь дообучение.
  • Слепоглухие люди как естественный эксперимент: сенсорный поток вычитается, интеллект остаётся.
  • Глухой человек получает порядка 200 млн языковых токенов через жесты и чтение — и этого хватает.
  • Chinchilla: даже при бесконечном росте параметров данных нужно лишь в 10 раз меньше — апскейл не спасает.
  • Люди лежат вне scaling-кривой, поэтому к ним нельзя применять логику «больше параметров = ближе к человеку».
  • Часть профессий (банковский операционист, турагент) технологизировали ещё до ИИ — они стабильны по распределению данных.
  • Софтвер-инженерия каждый день имеет дело со сдвигом распределения — поэтому ИИ возьмётся за неё первой.
  • Парадокс: ИИ заберёт работу софтвер-инженера и при этом поднимет спрос на софтвер-инженеров.
  • Человеку бессмысленно «учиться», если перед работой надо прочесть весь публичный GitHub — а ИИ именно так и делает.
  • Ключевой ROI лаб — затащить рутинные офисные задачи в обучение, даже если человек так учиться не способен.
  • Настоящая цель — не белые воротнички, а автоматизация самого ИИ-исследования.
  • Главный нерешённый вопрос: может ли существовать ИИ без человеческой sample efficiency, но решающий исследовательские задачи.
  • Дискуссия об интеллект-взрыве сломана: люди либо отрицают прогресс, либо верят в богоподобие, игнорируя промежуток.
  • Спикер сознательно откладывает разбор интеллект-взрыва на отдельный будущий пост.

Инсайты

  • Архитектурный ров неглубок: всё, что воплощено в выходах модели, утекает через API, поэтому конкурентное преимущество смещается от инженерии к проприетарным данным.
  • Дороговизна интеллекта сегодня — это дороговизна экспертной разметки, а не вычислений; узкое место в людях, которых надо нанять думать вслух.
  • Сравнение «человек учится на крохах, а машине нужны триллионы» некорректно методологически: оно сравнивает дообучение человека с обучением модели с нуля.
  • Эволюция и обучение модели — один и тот же процесс на разных временных горизонтах; разница в том, кто оплатил предобучение.
  • Интеллект слабо зависит от богатства сенсорного входа — язык несёт основную информационную нагрузку.
  • Масштабирование размера не эквивалентно приближению к человеку, потому что человеческая эффективность по данным находится в другой точке пространства.
  • Экономика ИИ ломает человеческую логику обучения: амортизация одного дорогого прогона по бесконечному числу развёртываний делает выгодным обучение тому, чему человека учить было бы абсурдно.
  • Уязвимость профессии к автоматизации определяется не сложностью, а стабильностью распределения данных в ней.
  • Автоматизация и рост спроса на профессию совместимы, когда ИИ выступает комплементом, а не субститутом.
  • Подлинная ставка в гонке — не автоматизация офисного труда, а замыкание петли самоулучшения через ИИ-исследователя.
  • Публичный дискурс об ИИ поляризован до бинарности, и это мешает увидеть динамику самого перехода.

Цитаты

«The main way AI is improving is to add data as much as possible and to increase the compute to develop that data» — 0:19 Главный способ улучшения ИИ — добавлять как можно больше данных и наращивать компьют, чтобы их освоить

«It is like a Frankenstein's demon, which has been carefully made» — 2:17 Это как демон Франкенштейна, бережно собранный по кускам

«Eppoch recently said that open models are four months behind the modern frontier models» — 2:24 Epoch недавно сказали, что открытые модели отстают от фронтира на четыре месяца

«data is the real driver of progress» — 2:34 Данные — настоящий двигатель прогресса

«We see AI as a shining star of the sky. But in their center... The data has an unimaginable black hole» — 3:07 Мы видим ИИ как сияющую звезду в небе, но в её центре — невообразимая чёрная дыра данных

«this frontier model is trained on trillions of tokens» — 3:26 Этот фронтир-модель обучен на триллионах токенов

«Our genome is only 3 GB big. And it has only 1-2% protein coding» — 4:46 Наш геном всего 3 ГБ, и кодирующих белок в нём лишь 1-2%

«blind and deaf people who are cut off from all sensor information, they still have the same intelligence» — 5:58 Слепоглухие люди, отрезанные от всей сенсорной информации, сохраняют тот же интеллект

«there are about 100 trillion synapses in the human brain. And we have a frontier model of about 5 trillion parameters» — 6:35 В человеческом мозге около 100 триллионов синапсов, а у нас фронтир-модель примерно на 5 триллионов параметров

«The number of human models is thousands to lakhs of times more sample efficient» — 7:23 Человек на тысячи-лакхи раз эффективнее по данным

«AI can learn this skill by giving a gigawatt training at once» — 9:56 ИИ осваивает навык за один гигаваттный прогон обучения

«I can bet that the demand of 2000 software engineers will be far higher than today» — 10:44 Готов поспорить, что спрос на софтвер-инженеров будет куда выше сегодняшнего

«either people completely eliminate AI's progress or they believe that there is only God» — 11:22 Люди либо полностью отрицают прогресс ИИ, либо верят, что есть только бог

Факты

  • Человек примерно за час видит и слышит ~2000 слов; за всю жизнь это около 200 миллионов токенов.
  • Фронтир-модели обучены на триллионах токенов — на порядки больше человеческого опыта.
  • Epoch оценивает отставание открытых моделей от фронтира в четыре месяца (по словам спикера).
  • Геном человека весит 3 ГБ, кодирующая белок часть — 1-2%.
  • В человеческом мозге около 100 триллионов синапсов; во фронтир-модели — около 5 триллионов параметров.
  • По Chinchilla Scaling Law: при росте параметров к бесконечности данных нужно лишь в 10 раз меньше для того же loss.
  • Глухой человек, общающийся жестами и чтением, получает порядка 200 миллионов языковых токенов — спикер называет это очень малым.
  • Рынок специализированной разметки и RL-сред растёт от миллионов к десяткам миллиардов в год (формулировка спикера, оценочно).
  • В вакансиях Mercor и Surge ищут юристов для написания реальных M&A-филингов и профильных специалистов для полировки документов.
  • Примеры профессий, технологизированных ещё до ИИ: банковский операционист и турагент.
  • Рекламная вставка: Mercury (финтех, не банк) и его ИИ-ассистент Command для управления финансами бизнеса.

Источники

  • Epoch AI — оценка отставания открытых моделей.
  • Mercor, Surge (Surge AI) — компании по разметке и подбору доменных экспертов.
  • Chinchilla Scaling Law — статья DeepMind о соотношении параметров и данных.
  • Mercury / Command — банковская платформа и её ИИ (рекламный сегмент), mercury.com.
  • Личный блог и рассылка спикера (анонс будущего поста об интеллект-взрыве).

Итог

Интеллект ИИ — это сжатый океан данных вокруг невидимой чёрной дыры разметки; человек кажется чудом эффективности лишь потому, что его предобучение оплатила эволюция, и взломать эту разницу, а не нарастить параметры, — вот настоящая задача лаб.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Dwarkesh Patel»

Все видео