Коротко
Первая лекция стэнфордского курса CME 295 «Transformers & LLMs»: близнецы Афшин и Шервин (Central Paris → MIT/Stanford ICME → Uber → Google → Netflix) проводят слушателя от базовых задач NLP до полного устройства трансформера из статьи «Attention is All You Need» (2017). Сначала разбирается классификация NLP-задач на три корзины (классификация, мульти-классификация, генерация) и их метрики — precision/recall/F1, BLEU, ROUGE, perplexity — с акцентом на то, что reference-based метрики дороги из-за стоимости разметки. Затем последовательно выстраивается пайплайн представления текста: токенизация (word/subword/character уровни и проблема OOV), one-hot кодирование и его провал из-за ортогональности векторов, Word2Vec как обучение эмбеддингов через proxy-задачу, RNN/LSTM и их фатальная болезнь — vanishing gradient на длинных последовательностях. Кульминация — механизм self-attention с терминологией query/key/value, формула softmax(QKᵀ/√dₖ)V, multi-head, позиционные кодировки, label smoothing и пошаговый проход encoder-decoder архитектуры на примере машинного перевода. Организационно: экзамены 50/50 (midterm 24 октября, финал в неделю 8 декабря), без домашек и кода на экзаменах, лекции записываются.
Главный тезис
Вся современная LLM-индустрия стоит на одной идее: заменить последовательную обработку текста (RNN), которая «забывает» прошлое из-за затухающих градиентов, на прямые связи каждого токена со всеми остальными — self-attention, — и именно этот механизм, оформленный в трансформере 2017 года и отмасштабированный данными и компьютом, «makes everything work».
Ключевые идеи
- 0:25 — курс ведут близнецы Афшин и Шервин с идентичными траекториями: Central Paris → MIT / Stanford ICME → Uber → Google → Netflix, специализация в NLP с 2020 года; курс вырос из ежегодного воркшопа, который после взрыва интереса к ChatGPT (2022) стал официальным стэнфордским предметом.
- 2:16 — цель курса двойная: понять трансформер как фундаментальную архитектуру, на которой работает всё, и узнать, как LLM обучаются и где применяются.
- 11:17 — все NLP-задачи раскладываются на три корзины: классификация (текст → один прогноз: сентимент, intent, язык), мульти-классификация (текст → несколько меток: NER, POS-tagging) и генерация (текст → текст переменной длины: перевод, QA, суммаризация).
- 16:07 — accuracy обманчива при дисбалансе классов: модель, предсказывающая всё как мажоритарный класс при 99/1, выглядит отличной — поэтому нужны precision, recall и F1 (гармоническое среднее).
- 20:00 — главная слабость BLEU и ROUGE: им нужен эталонный текст, а разметка дорога по времени и деньгам; прогресс LLM позволяет уходить к reference-free метрикам (тема будущих лекций).
- 20:52 — perplexity смотрит только на вероятности модели и измеряет, насколько модель «удивлена» собственным выводом; BLEU/ROUGE — чем выше тем лучше, perplexity — наоборот.
- 21:43 — идеи RNN существовали с 80-х, LSTM — с 90-х, но не было интернета и компьюта; LLM — это не новая идея, а старые модели, дождавшиеся данных и железа после Word2Vec (2013) и трансформера (2017).
- 25:40 — subword-токенизация — рабочий компромисс: использует корни слов (bear/bears делят общую часть), снижает риск OOV, ценой более длинных последовательностей — а сложность модели растёт с длиной последовательности.
- 29:16 — слово, не виденное при обучении, помечается как unknown token; word-level токенизация страдает от этого сильнее всех, character-level не страдает вовсе, но даёт сверхдлинные последовательности и бессмысленные представления («что значит эмбеддинг буквы U?»).
- 32:28 — one-hot кодирование ломается о геометрию: все векторы взаимно ортогональны, поэтому cosine similarity не отличает «teddy bear и soft» (близкие) от «teddy bear и book» (независимые).
- 39:33 — Word2Vec (CBOW и skip-gram) обучает эмбеддинги через proxy-задачу: предсказание слова по контексту нужно не само по себе — модель, умеющая предсказывать следующее слово, вынуждена выучить устройство языка, и её скрытый слой становится представлением слова.
- 54:26 — RNN вводят порядок слов: скрытое состояние (hidden state / context vector) накапливает смысл предложения токен за токеном; но весь смысл зажат в один вектор.
- 1:01:01 — backpropagation through time даёт произведение множества величин: меньше единицы — градиент затухает, больше — взрывается; отсюда неспособность RNN/LSTM помнить далёкое прошлое (long-range dependencies) плюс медленное последовательное обучение.
- 1:06:15 — attention (2014) решает это прямой связью между предсказываемым токеном и любым местом входа — «подглядеть» в нужную область исходного текста вместо протаскивания смысла через цепочку состояний.
- 1:07:08 — трансформер (2017) радикализирует идею: выбросить последовательную обработку целиком, оставить только self-attention — каждый токен напрямую смотрит на все остальные, и «bank» в «river bank» и «robbing a bank» получает разные контекстные представления.
- 1:09:23 — терминология Q/K/V: query сравнивается с keys, чтобы взвесить, чьи values важнее; матрицы проекций WQ, WK, WV выучиваются, а не задаются; деление на √dₖ нормализует растущие с размерностью dot-products.
- 1:18:04 — в декодере три вида внимания: masked self-attention (только уже сгенерированные токены), cross-attention (query — из декодера, keys/values — из энкодера) и далее FFN; позиционные кодировки компенсируют потерю порядка слов при прямых связях.
- 1:25:45 — label smoothing: вместо жёсткого 1-0-0 цель становится (1−ε, ε/(V−1), …) — модель учат быть менее уверенной, потому что «what a great ___» имеет много правильных продолжений; на практике это улучшает BLEU.
Почему это важно
Это первая лекция курса, который Stanford выкладывает в открытый доступ — фактически каноническая «точка входа» в индустрию, где OpenAI (ChatGPT), Google (Gemini) и работодатели лекторов (Netflix, Uber) строят продукты на одной и той же архитектуре 2017 года. Лекторы — практики из бигтеха, а не чистые академики, и их рамка показательна: вся ценность курса — довести слушателя от «боюсь аббревиатур NLP/NER/BLEU/OOV» до ментальной карты поля, потому что спрос на людей, понимающих механику трансформера (а не только API), кратно вырос после 2022 года. Выигрывают те, кто понимает trade-offs под капотом — токенизация, размер словаря, стоимость инференса от длины последовательности; проигрывают те, кто застрял в парадигме RNN/LSTM и rule-based метрик, которые курс прямо хоронит.
Идеи
- LLM — это история про инфраструктуру, а не про озарение: архитектурные идеи 80-х ждали интернета (данные) и GPU (компьют) сорок лет.
- Proxy-задача — центральный трюк всего поля: учим модель предсказывать слово, а забираем побочный продукт — представления.
- Название «Attention is All You Need» — это манифест: авторы сознательно выкинули рекуррентность, а не добавили attention поверх неё.
- Self-attention решает проблему полисемии (river bank vs robbing a bank) автоматически — представление токена уникально для его контекста.
- Q/K/V — это выученный механизм адресации: key отвечает «насколько я релевантен запросу», value — «что я отдаю, если релевантен».
- Cross-attention — это вопрос «какие слова входа важны для следующего слова перевода», поэтому query идёт из декодера, а K/V — из энкодера.
- Маска в декодере — не оптимизация, а честность: нельзя смотреть на то, что ещё не переведено.
- Multi-head — аналог множественных фильтров в свёртках: ничто не запрещает головам выучить одно и то же, но градиентный спуск сам разводит их по разным проекциям, потому что копирование не помогает лучше предсказывать.
- FFN в трансформере имеет скрытый слой больше входа-выхода — в противоположность Word2Vec, где скрытый слой меньше: цель не сжать, а усложнить признаки.
- Финальная проекция WO после конкатенации голов даёт «dimension-invariant» способ вернуться к исходной размерности эмбеддинга.
- Subword-токенизация — это управление риском OOV ценой длины последовательности, а длина последовательности — это деньги (квадратичная сложность attention).
- Размер словаря — прокси на амбиции модели: десятки тысяч для одного языка, сотни тысяч для мультиязычности и кода.
- Размерность эмбеддинга (768 и т.п.) — чисто эмпирический trade-off между богатством представления и стоимостью инференса; «люди берут то, что сработало у других».
- Косинусная близость игнорирует норму вектора — и на вопрос «почему не важна норма» лектор честно отвечает «I don't have a great answer for you»: метрика конвенциональна, а не выведена.
- Label smoothing встраивает в лосс лингвистический факт: у языка нет единственного правильного продолжения.
- Спецтокены BOS/EOS — это протокол управления генерацией: модель сама решает остановиться, сгенерировав EOS.
- BLEU/ROUGE названы цветами (синий/красный по-французски) — «the machine learning community is funny».
- Нейминг-ловушка поля: «word representation» правильнее называть «token representation», лекторы используют слова взаимозаменяемо, и это источник путаницы новичков.
- Скрытое состояние RNN имеет три равноправных имени в литературе: activation, hidden state, context vector — пример того, как поле плодит синонимы.
- Усреднение word-эмбеддингов как представление предложения теряет порядок слов — наивный baseline, объясняющий, зачем вообще нужны последовательностные модели.
- Экзамены без кода и «не созданы, чтобы поймать вас» — курс осознанно концептуальный, а не инженерный.
- Слайды снабжены источниками не для формальности, а потому что 9–10 недель по 2 часа заведомо не хватает на поле.
Инсайты
- Прорывы в ML чаще являются разблокировкой старых идей новым ресурсом (данные, компьют), чем изобретением новых идей — и значит, ценность идеи нельзя оценивать вне инфраструктурного контекста её времени.
- Обучение через суррогатные цели — фундаментальный паттерн: когда целевое свойство (понимание языка) неизмеримо напрямую, его выращивают как побочный эффект измеримой задачи.
- Эволюция архитектур NLP — это последовательная замена неявной, опосредованной передачи информации (цепочка скрытых состояний) на явную и прямую (attention); каждый шаг убирал одно «бутылочное горлышко» памяти.
- Архитектуры побеждают не только качеством, но и совместимостью с железом: матричная формулировка attention выиграла, потому что «GPUs love matrices» — co-design алгоритма и hardware решает.
- Жёсткие однозначные метки систематически врут о задачах с множеством правильных ответов; смягчение целей (label smoothing) — признание неопределённости мира на уровне функции потерь.
- Метрики — конвенции, а не истины: precision/recall против accuracy, отказ от нормы в cosine similarity, BLEU как «прокси-метрика» — поле постоянно измеряет не то, что хочет, а то, что может.
- Каждый выбор представления текста — это трёхсторонний trade-off между обобщением (корни слов), устойчивостью (OOV, опечатки) и стоимостью (длина последовательности); идеальной точки нет, есть рабочие компромиссы.
- Разнообразие в ансамблях (multi-head) не требует явных ограничений — достаточно общей цели и избыточных степеней свободы: оптимизация сама наказывает избыточность.
- Стоимость разметки — скрытый двигатель прогресса в evaluation: поле движется от reference-based к reference-free метрикам не из элегантности, а из экономики.
- Понимание поля = владение его словарём: курс явно ставит целью «ментальную карту аббревиатур», признавая, что терминологический барьер — реальный барьер входа.
Фреймворки
- Три корзины NLP-задач: (1) классификация — текст → один прогноз (сентимент, intent, язык, топик); (2) мульти-классификация — текст → несколько меток (NER, POS-tagging, парсинг); (3) генерация — текст → текст переменной длины (перевод, QA, суммаризация, кодогенерация).
- Три уровня токенизации с trade-offs: word-level (просто, но не использует корни и максимальный риск OOV) → subword (использует корни, ниже риск OOV, длиннее последовательности) → character-level (устойчив к опечаткам и без OOV, но сверхдлинные последовательности и бессмысленные эмбеддинги символов).
- Q/K/V-модель внимания: query — «что я ищу», key — «насколько я релевантен запросу» (сравнение через dot-product), value — «что я отдаю»; формула softmax(QKᵀ/√dₖ)V = взвешенная сумма values по похожести query на keys.
- Три вида attention в трансформере: self-attention энкодера (все токены входа смотрят друг на друга), masked self-attention декодера (только на уже сгенерированное), cross-attention (query из декодера, keys/values из энкодера).
- Эволюционная цепочка представлений текста: one-hot → Word2Vec (статические эмбеддинги, без контекста) → RNN/LSTM (порядок есть, память короткая) → attention (2014) → трансформер (2017).
Цитаты
«but models they understand numbers they don't really understand text» — 23:07 Но модели понимают числа — текст они на самом деле не понимают
«And GPUs love matrices. So it's really like made for the hardware that we have» — 1:11:16 А GPU обожают матрицы. Это буквально создано под железо, которое у нас есть
«you will see that the machine learning community is funny because bleu, I'm not sure if you know, French means blue, but rouge means red» — 19:45 Вы увидите, что ML-сообщество забавное: bleu по-французски — синий, а rouge — красный
«in practice, having labels is very cost expensive. It takes a lot of time, a lot of money to get labels» — 20:06 На практике разметка очень дорога. Получение меток требует массы времени и денег
«Like what does the representation of the letter U mean? It's very hard» — 28:09 Ну вот что означает представление буквы U? Это очень сложно
«king is to queen, what this is to that, like Paris is to France, what Berlin is to Germany» — 38:29 Король относится к королеве, как то к этому — как Париж к Франции, а Берлин к Германии
«I guess this is a measure, this is not the perfect measure... But yeah, I don't have a great answer for you» — 34:49 Это просто мера, не идеальная мера... Честно, у меня нет для вас хорошего ответа
«So it's the magic of gradient descent» — 1:36:29 Это магия градиентного спуска
«I mean, it's like typically gradient descent does wonders» — 1:37:19 Обычно градиентный спуск творит чудеса
«So even from the title, you can see that the authors wanted to just rely on that part» — 1:07:22 Уже из названия видно, что авторы хотели опереться только на этот механизм
«So yes, if you have that mental mapping towards the end of the class, then we know we did a good job» — 10:33 Если к концу курса у вас будет эта ментальная карта — значит, мы хорошо сделали свою работу
«Okay, long story short, 50% midterm, 50% final exam, and yeah, it's a fun class» — 9:28 Короче: 50% midterm, 50% финальный экзамен — и да, это весёлый курс
«So you're way ahead of me» — 52:55 Вы забегаете далеко вперёд
Факты
- Курс: CME 295 «Transformers & Large Language Models», Stanford, осень 2025 — второй запуск как официального курса (первый был весной), до этого — ежегодный воркшоп в 2021–2024.
- Лекторы — близнецы; оба окончили Central Paris (Франция), затем один — MIT, второй (Шервин) — магистратуру ICME в Stanford; оба прошли Uber → Google → Netflix, где работают над LLM.
- Формат: пятницы 15:30–17:20, 2 юнита, без домашек; midterm 24 октября (5-я лекция), финал — на неделе 8 декабря (дата TBD), вес 50/50, без кода на экзаменах; записи выкладываются в пятницу вечером или субботу.
- Учебник курса — «Super Study Guide: Transformer and LLMs»; сжатая версия — VIP Cheat Sheet на GitHub, переведённая на несколько языков.
- Waitlist на момент лекции — около 6 человек, лектор уверен, что все попадут.
- Хронология поля: RNN-идеи — 1980-е, LSTM — 1990-е, Word2Vec — 2013, attention — 2014, трансформер («Attention is All You Need») — 2017, ChatGPT — 2022.
- Типичный размер словаря: десятки тысяч токенов для одного языка, сотни тысяч для мультиязычных моделей с кодом; типичная размерность эмбеддинга — сотни-тысячи, например 768.
- Датасет WMT (Workshop on Machine Translation) содержит пары предложений, в т.ч. англо-французские и англо-немецкие из материалов Европарламента; для сентимента используются IMDB, Amazon reviews и посты X (Twitter).
- BLEU = Bilingual Evaluation Understudy; ROUGE — набор метрик; обе требуют референса; perplexity референса не требует — чем ниже, тем лучше.
- В формуле attention dot-product нормируется на √dₖ, потому что произведения растут с размерностью; dq = dk по построению.
- Label smoothing заменяет one-hot цель на (1−ε; ε/(V−1)) и, по наблюдению авторов трансформера, улучшает BLEU.
- Позиционные кодировки в оригинальной статье — синусы и косинусы, добавляемые к эмбеддингу поэлементно.
Источники
- «Attention is All You Need» (2017) — оригинальная статья о трансформере
- Word2Vec (2013) — CBOW и skip-gram
- «Super Study Guide: Transformer and LLMs» — учебник курса
- VIP Cheat Sheet — конспект курса на GitHub, мультиязычный
- WMT (Workshop on Machine Translation) — датасет параллельных текстов
- IMDB, Amazon reviews, X (Twitter) — датасеты для сентимент-анализа
- ChatGPT (OpenAI), Gemini (Google) — упомянуты как примеры ассистентов
- Canvas и форум Ed — инфраструктура курса
- Лекторы: Афшин и Шервин (Netflix)
Рекомендации
- Смотреть источники внизу каждого слайда — они нужны, чтобы копать глубже: двух часов в неделю на девять-десять недель заведомо мало для покрытия поля.
- Следить за курсом по учебнику «Super Study Guide: Transformer and LLMs» — большинство концептов лекций есть в книге.
Итог
Трансформер — это момент, когда NLP перестало протаскивать смысл текста через бутылочное горлышко последовательных состояний и дало каждому токену прямой доступ ко всем остальным, — и всё, что мы сегодня называем LLM, есть масштабирование этого одного решения данными и компьютом.