Стэнфорд CS229 | Машинное обучение | Как создаются большие языковые модели (LLM)

Stanford Online27 августа 20242 042 41253 547вчера, 11:59

Технологии Искусственный Интеллект Наука Обучение Инновации

Коротко

Лекция — обзорный разбор того, как тренируют современные LLM, от претрейна до пост-трейна и систем. Спикер сознательно пропускает архитектуру (трансформеры) и фокусируется на четырёх вещах, которые реально определяют качество: данные, оценка, системы и алгоритм обучения. Главный сдвиг последних лет — переход от GPT-3 к ChatGPT обеспечил пост-трейн (SFT + RLHF/DPO), а главный закон индустрии — scaling laws: больше данных и параметров → предсказуемо меньше loss, и переобучения на этом масштабе не существует. Тренировка фронтирной модели уровня LLaMA-3-405B стоит около 75 миллионов долларов и 70 дней на 16 000 H100. Перплексия как метрика ушла в прошлое — её заменили MMLU и арены типа Chatbot Arena, причём LLM как судья коррелирует с людьми на 98%.

Главный тезис

Архитектура и loss-функции — то, на чём зациклена академия, — на практике почти не важны: всё решают данные, scaling laws и системная эффективность железа, потому что любую архитектурную разницу убивает следующая партия GPU.

Ключевые идеи

0:34 — лекция намеренно пропускает архитектуру трансформеров, чтобы сфокусироваться на данных, оценке, системах и алгоритмах обучения — четырёх компонентах, которые реально решают в индустрии.
2:23 — академия тратит время на архитектуры и loss-функции, но в реальности 80% работы — это данные и системы, а архитектурные различия второстепенны.
3:47 — языковая модель — это просто распределение вероятностей над последовательностями токенов, разложенное по правилу цепочки (авторегрессионная факторизация).
10:51 — токенизаторы критичны: BPE-токенизация решает проблемы опечаток, языков без пробелов (тайский) и длины последовательности; в среднем 3-4 буквы на токен.
18:36 — главное улучшение GPT-4 — изменение токенизации кода (раньше четыре пробела Python обрабатывались криво, и модель не понимала код).
21:07 — перплексия больше не используется в академических бенчмарках, потому что зависит от размера словаря токенизатора: модели с разными токенизаторами несравнимы.
40:16 — фронтирные модели тренируют на ~15 триллионов токенов, что в ~100 раз больше академического бенчмарка The Pile.
55:55 — простая формула флопов: 6 × N_параметров × N_токенов; LLaMA-3-405B = 3.8×10²⁵ flops, ровно под порогом 10²⁶ из исполнительного указа Байдена.
41:18 — переобучения в LLM не существует: больше данных и параметров → всегда лучше; для экзамена — переобучение есть, для LLM — нет.
51:34 — Chinchilla: оптимальное соотношение 20 токенов на параметр, но с учётом стоимости инференса фронтирные лаборатории используют ~150:1 (меньшая модель дешевле в эксплуатации).
44:58 — старая парадигма: тюнить гиперпараметры на финальной модели; новая: тюнить на маленьких моделях и экстраполировать через scaling laws на большую.
1:12:06 — гипотеза: галлюцинации возникают из SFT, когда человек пишет ответ с фактом, которого модель не видела на претрейне — модель учится "выдумывать правдоподобное".
1:12:30 — RLHF максимизирует человеческие предпочтения, а не клонирует поведение, что снимает потолок человеческих способностей генерации.
1:22:39 — DPO заменил PPO как стандарт: вместо reward-модели и RL — просто maximum likelihood на парах "лучше/хуже"; работает не хуже и резко проще.
4:08 — люди соглашаются между собой в разметке предпочтений только в 66% случаев; LLM-судьи дают более воспроизводимую оценку дешевле в 50 раз.
1:24:52 — RLHF систематически делает ответы длиннее, потому что разметчики путают длину с качеством — отсюда многословие ChatGPT.
54:34 — горький урок Саттона: побеждают архитектуры, которые умеют утилизировать compute; всё остальное вторично.

Почему это важно

Лекция — это карта того, где реально создаётся ценность в LLM-индустрии: не в академических статьях про новые активации, а в data pipelines, scaling-предсказаниях и системной оптимизации GPU. Выигрывают компании с доступом к compute (Meta, OpenAI, Google) и с большими data-командами (в команде LLaMA из ~70 человек 15 работают только над данными). Проигрывают академики, тренирующие игрушечные модели, и страны без доступа к H100. Регуляторы (исполнительный указ Байдена) уже завязывают надзор на флопы (>10²⁶), и индустрия учится проходить ровно под порогом. Юридический риск (копирайт на книги) заставляет лаборатории скрывать состав данных — то есть главный секрет фронтирных моделей именно в данных, а не в коде.

Идеи

BPE-токенизация: начинаешь с побуквенного разбиения и итеративно сливаешь самые частые пары токенов.
При применении токенизатор всегда выбирает самый длинный матч, а не короткий.
Common Crawl содержит ~250 миллиардов страниц = ~1 петабайт сырых данных.
Чтобы превратить сырой crawl в тренировочный корпус: extract text → дедупликация → rule-based фильтр → model-based фильтр (классификатор "ссылается ли на это Wikipedia") → доменная классификация.
В конце претрейна понижают learning rate и переобучают на Wikipedia — это сознательный overfit на высококачественные данные.
Математика в LLM плохо работает потому, что число 327 может быть одним токеном — модель не видит разрядность как мы.
Train-test contamination детектируют через "perplexity на упорядоченном vs. перемешанном тестсете" — если упорядоченный вероятнее, значит модель видела датасет в обучении.
Длинные ответы в RLHF — это побочный эффект bias разметчиков: они выбирают более длинный вариант, даже если короткий лучше.
Open Assistant — попытка краудсорсить SFT-данные опенсорсом.
Alpaca: можно использовать LLM (text-davinci-003) для генерации SFT-данных и поднять LLaMA-7B до уровня "академической реплики ChatGPT".
LIMA-результат: масштабирование SFT с 2K до 32K примеров почти не помогает — SFT учит только формату, а не знаниям.
DPO выводится из той же оптимизационной задачи, что и PPO с reward-моделью — глобальные минимумы совпадают.
Reward-модели полезны тем, что позволяют использовать неразмеченные данные через self-labeling — это структурное преимущество PPO над DPO.
При длинном KL-регуляризованном RL модель схлопывается в дельта-распределение и перестаёт быть генеративной — поэтому перплексию на пост-трейн моделях считать бессмысленно.
Carbon footprint LLaMA-3-405B = ~44 000 тонн CO₂ = 2000 авиабилетов JFK↔Лондон — пока в масштабах земного шара ничтожно.
Каждое следующее поколение LLM ~10× больше флопов предыдущего.
В H100 узкое место — не вычисления, а пропускная способность памяти: GPU большую часть времени ждут данные.
Mixed precision: веса хранятся в FP32, но матричные умножения идут в FP16/BF16.
torch.compile ускоряет PyTorch вдвое через operator fusion — слияние операций в одно ядро без round-trip в глобальную память.
Когда вызывают "scaling laws", показывают линейность в log-log координатах — без теоретического обоснования, чисто эмпирическая регулярность.
Современные модели обучают под порог регуляторного аудита — LLaMA-3-405B = 3.8e25, прямо под 1e26.
Дешевле снять H100 за $2/час, чем купить — но дешёвых H100 в природе мало.
В RLHF используется ~1M примеров, в SFT ~10K-50K, в претрейне ~15T токенов.
"Initialization view": после претрейна модель — это просто хорошая инициализация весов; то, что её тренировали на 15T токенов, не имеет значения для дальнейшего файнтюна (Марковское свойство).

Инсайты

Архитектурные различия — это сдвиг intercept, а не slope скейлинговой кривой: любую новую активацию убивает простое "обучай на 10 часов дольше". Поэтому академические публикации про архитектуру в основном не имеют практического веса.
Pre-training и post-training — это одно и то же обучение на разных данных. Разделение существует только из-за разницы в способах сбора данных, learning rate и весе градиентов на финальном этапе.
Главный ресурс фронтирной лаборатории — это не модели и не GPU, а data pipeline. Этим объясняется секретность OpenAI/Anthropic: открой состав данных — и потерял конкурентное преимущество плюс получил иски о копирайте.
Tokenization — это скрытый источник системного смещения: математика, код, многоязычность плохо работают именно потому, что токенизатор устроен под латинский текст. Bytes-level подход дал бы лучшее обобщение, но проигрывает по compute из-за квадратичности трансформера.
RLHF структурно создаёт sycophancy и многословие, потому что человеческий разметчик систематически путает форму с содержанием. Это не баг конкретной модели, а свойство архитектуры обратной связи через human feedback.
Reward hacking — это эпистемологическая проблема: reward-модель приближает истинные предпочтения с ошибкой, и оптимизация против неё уходит в область, где приближение ломается. Отсюда нужда в KL-регуляризации.
Закон обратной шкалы для модели и инференса: оптимум для обучения (Chinchilla 20:1) и оптимум для эксплуатации (~150:1) противоположны. Фронтирные лаборатории выбирают в пользу инференса, потому что амортизируют обучение через миллиарды пользователей.
Synthetic data ≠ infinite data: генерация из той же модели не добавляет новой информации после 3-4 итераций — но добавляет, если в петлю включён человек с минимальными правками. Будущее — active learning по узким местам.
Метрики деградируют при оптимизации против них (закон Гудхарта): LLM-судья даёт хорошую корреляцию с людьми один раз, но если на него натренировать модель, bias судьи (длина) станет встроенным свойством продукта.
Compute-конкуренция вытесняет интеллектуальную: горький урок Саттона означает, что нанимать инженеров по системам важнее, чем нанимать архитекторов моделей. Это структурный сдвиг в найме индустрии за последние пять лет.

Фреймворки

Пять компонентов тренировки LLM (по версии лектора):

Архитектура (трансформер) — наименее важна.
Loss и алгоритм обучения.
Данные.
Оценка.
Системы (GPU-эффективность).

Старая vs. новая пайплайн оптимизации гиперпараметров:

Старая: тренируй 30 моделей по дню, выбери лучшую → финальная модель тренировалась всего день.
Новая: найди scaling recipe → подбери HP на маленьких моделях разного размера → экстраполируй через scaling law → тренируй финальную модель 27 дней.

Три стадии пост-трейна (классический рецепт ChatGPT):

SFT (supervised fine-tuning) на человеческих демонстрациях.
Тренировка reward-модели на парах предпочтений.
PPO против reward-модели в нескольких раундах.

Современная упрощённая стадия: SFT + DPO (без отдельной reward-модели).

Цитаты

«Überanpassung tritt bei großen Sprachmodellen nicht auf. Größere Modelle bedeuten bessere Leistung» — 41:18 Переобучение в больших языковых моделях не возникает. Большие модели = лучшая производительность

«Aber für die Prüfung gilt, Überanpassung existiert» — 41:30 Но для экзамена считаем — переобучение существует

«Das Einzige, was zählt, sind Architekturen, die Rechenleistungen nutzen können» — 54:34 Единственное, что имеет значение — это архитектуры, способные утилизировать compute

«Verschwenden Sie also keine Zeit mit Kompliziertheit. Machen Sie die einfachen Dinge, machen Sie sie gut, machen Sie sie perfekt» — 55:02 Не тратьте время на сложность. Делайте простые вещи, делайте их хорошо, делайте их идеально

«Reinforcement Learning ist theoretisch etwas, das super ist. In der Praxis weiß jeder, der schon mal mit Reinforcement Learning gearbeitet hat, dass es so ein Chaos ist» — 1:18:59 Reinforcement Learning в теории — это супер. На практике каждый, кто с ним работал, знает, что это полный хаос

«Sie wollen dir definitiv nicht erzählen, dass sie mit Büchern trainiert haben, obwohl sie es getan haben. Denn wenn nicht, kannst du sie verklagen» — 38:44 Они точно не расскажут, что тренировали на книгах, хотя это так. Иначе их можно засудить

«Was also im Grunde genommen zählt, sind Systemdaten und weniger die Architektur» — 54:40 По сути решают системы и данные, а не архитектура

«Wenn Sie sich also jemals noch mal geärgert haben, dass ChatGPT Ihnen super lange Sätze beantwortet, liegt das an allen LHF-Annotator-Verteilungsverschiebungen» — 1:25:01 Если вас когда-то бесило, что ChatGPT отвечает невероятно длинными предложениями — это всё из-за дрейфа распределения RLHF-разметчиков

«Die Halluzinationen könnten also durch diese SFT verursacht werden» — 1:12:06 Галлюцинации могут возникать из-за самой процедуры SFT

«Das Wissen ist also bereits im vortrainierten LM vorhanden. Und du spezialisierst dich im Grunde nur auf einen Nutzertyp» — 1:06:31 Знание уже есть в претрейне. Ты просто специализируешься на одном типе пользователя

«Menschen sind sich bei einer binären Aufgabe nur in etwa 66% der Fälle einig» — 1:26:30 Люди сходятся в бинарной задаче разметки только в ~66% случаев

«Tokenizers sind extrem wichtig» — 10:51 Токенизаторы критически важны

«Die optimale Anzahl von Parametern, die in Jinchi Papier gefunden wurde, besteht darin, 20 Token für jeden trainierten Parameter zu verwenden» — 51:34 Оптимум из статьи Chinchilla — 20 токенов на каждый параметр

«GPUs sind im Grunde genommen für Durchsatz optimiert» — 1:37:56 GPU оптимизированы под пропускную способность

«Stellen Sie es sich vielleicht so vor, dass es sich um eine Mokkoff-Eigenschaft handelt» — 1:36:06 Можно представить это как Марковское свойство

Факты

LLaMA-3-405B обучен на 15.6 триллионах токенов, имеет 405 млрд параметров, ~40 токенов на параметр.
Тренировка LLaMA-3-405B = 3.8×10²⁵ flops, ровно под регуляторным порогом 10²⁶ из указа Байдена.
16 000 H100, ~70 дней, ~26 миллионов GPU-часов (по факту Meta потратили 30M — видимо были перезапуски).
Стоимость аренды H100 ≥ $2/час → ~$52M только за compute.
Итоговая стоимость LLaMA-3-405B оценочно ~$75M (compute + зарплаты ~50 человек × $500K/год).
CO₂-эквивалент = ~44 000 тонн = 2000 рейсов JFK↔Лондон.
Common Crawl: ~250 миллиардов страниц ≈ 1 петабайт.
The Pile (академический бенчмарк) = 380 ГБ — в ~100 раз меньше реальных корпусов.
LLaMA-2 = 2T токенов, LLaMA-3 = 15T токенов; утечки про GPT-4 — также ~13T токенов.
Перплексия на стандартном датасете между 2017 и 2023 упала с ~70 до <10.
В команде LLaMA из ~70 человек ~15 работают только над данными.
SFT эффективен уже на 2 000 примеров — скейлинг до 32 000 не даёт прироста (LIMA paper).
RLHF использует на порядок больше данных, чем SFT — ~1 миллион пар предпочтений.
LLaMA-3 достигает MFU (model flop utilization) ~45% — даже у Meta GPU простаивают больше половины времени.
Alpaca собрали 52 000 инструкций через text-davinci-003 и зафайнтюнили LLaMA-7B.
ChatGPT — около 600 миллионов пользователей (примерная оценка спикера).
Alpaca Eval коррелирует с Chatbot Arena на 98%, занимает <3 минут и <$10 на оценку.
GPT-4 со стандартным промптом vs. GPT-4 с просьбой быть verbose: winrate подскакивает с 50% до 64.4% — длина систематически выигрывает.
LLM-разметчик в 50 раз дешевле человека и при этом коррелирует с человеческим консенсусом не хуже.

Источники

Scaling Laws (OpenAI, 2020) — статья, формализовавшая степенные зависимости loss от compute/данных/параметров.
Chinchilla (DeepMind) — статья про compute-optimal соотношение параметров и токенов (20:1).
The Pile — открытый академический бенчмарк предобучения.
HELM (Stanford) — фреймворк для evaluation LLM.
Hugging Face Open LLM Leaderboard.
MMLU — стандартный экзаменационный бенчмарк (medicine, physics, astronomy).
Common Crawl — webcrawler, источник претрейн-данных.
Open Assistant — открытая платформа для сбора SFT-данных.
Alpaca (Stanford) — academic replication ChatGPT через self-instruct.
DPO (Stanford, 2023) — упрощённая замена PPO.
PPO — статья OpenAI, John Schulman.
LIMA — статья, показавшая, что SFT не масштабируется по данным.
Chatbot Arena — арена для blind-сравнения чатботов.
Alpaca Eval — автоматизированная LLM-as-judge оценка.
Richard Sutton, "Bitter Lesson" (2019, блог-пост).
Mixture of Experts, LoRA, Flash Attention (упоминаются вскользь).
torch.compile — PyTorch-механизм operator fusion.

Рекомендации

CS 222-CRN (Stanford) — фоновые знания и исторический контекст по NLP/LLM.
CS 322-4 — углублённое чтение по всем темам лекции ("Large Language Models").
CS 322-4 (другой) — практический курс "построй LLM с нуля", даётся научными руководителями спикера. Высокая нагрузка — спикер прямо предупреждает.

Итог

LLM-индустрия — это не про модели, а про compute, данные и пайплайны: всё остальное — детали, которые сметает следующая партия H100.

readmint Pro

Понравилось саммари? Сделайте такое же по своему видео

Вставьте ссылку на любое YouTube-видео — readmint расшифрует его и соберёт пересказ с главными тезисами и цитатами. Без воды и перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Саммари своего видео

Вставьте ссылку на YouTube, разбор будет готов за 2–3 минуты.