Коротко
Это вводная лекция продвинутого аспирантского курса по deep learning (по контексту — MIT), где deep learning определяется как сочетание двух компонентов: нейросетей (стеки линейных преобразований с поэлементными нелинейностями) и дифференцируемого программирования (параметризация частей программы с градиентной оптимизацией). Лектор проходит историю нейросетей через цикл энтузиазма: перцептрон Розенблатта (1958), критика Минского-Паперта (1972), backpropagation (1986), CNN ЛеКуна (1998), «AI-зима» около 2000-го, прорыв AlexNet (2012) — и привязывает успех ML к триаде «теория + программирование + данные». Разбираются базовые блоки, которые студенты уже должны знать: gradient descent, перцептрон, нелинейности (step/tanh/sigmoid/ReLU), стэкинг слоёв, softmax cross-entropy, тензоры и батчинг. Отдельно обсуждается, что overparameterized-сети вопреки классической теории не переобучаются, а обобщаются (феномен double descent), и что соотношение ширины/глубины — не наука, а закрытый секрет лабораторий вроде OpenAI. Лектор честно фиксирует: индустрия движется к закрытости (API вместо весов) и централизации крупномасштабного ML.
Главный тезис
Deep learning держится на связке нейросетей и дифференцируемого программирования, а его реальный успех обеспечила не только теория, но равно — эффективное программирование железа (GPU) и крупномасштабные размеченные данные; при этом многое в области остаётся эмпирикой без теоретических гарантий.
Ключевые идеи
- 1:16 — deep learning = нейросети (стеки линейных преобразований с поэлементными нелинейностями) + дифференцируемое программирование, где градиентная оптимизация подбирает параметры.
- 2:11 — прорывы рождаются из смеси теории и практики, и обе нужны для будущего прогресса.
- 4:45 — финальный проект не должен гнаться за SOTA: «bigger is better» не для всех, ценный навык — делать impactful research при централизации крупного ML.
- 13:55 — перцептрон (1958) — первая нейросеть: сумма пиксельных представлений → нелинейность → категоризация; этот блок до сих пор внутри ChatGPT.
- 14:54 — Минский и Паперт (1972) математически описали пределы перцептрона и обрушили энтузиазм.
- 15:38 — книга Parallel Distributed Processing (1986) ввела backpropagation, что позволило обучать многослойные перцептроны и решить XOR-проблему.
- 17:27 — на NeurIPS-2000 слова «neural» и «network» в заголовке предсказывали отклонение статьи — это и есть «AI-зима».
- 18:24 — AlexNet (2012): прорыв не в архитектуре, а в умении перепрофилировать GPU под обучение сетей.
- 19:33 — третий критичный компонент наряду с теорией и программированием — крупномасштабные размеченные данные (ImageNet).
- 19:50 — энтузиазм к нейросетям колеблется циклами ~28 лет; сейчас — пик хайпа.
- 28:31 — step-функция плоха как нелинейность: недифференцируема, градиент ноль — backprop не знает, куда двигаться.
- 33:55 — ReLU = max(0,z) — дефолтный выбор: эффективна, дала ~6x ускорение сходимости против tanh, но «мёртвые» юниты в отрицательной зоне.
- 40:55 — два+ слоя с нетривиальной нелинейностью — универсальный аппроксиматор, но широкая 2-слойная сеть крайне неэффективна против узкой глубокой.
- 44:23 — overparameterized-сети должны были бы переобучаться, но обобщаются — double descent проходит порог интерполяции и улучшает результат.
- 49:29 — соотношение ширины и глубины в GPT — закрытый секрет; научного рецепта нет, кто найдёт — «get a job, make seven figures».
Почему это важно
Лекция фиксирует структурный сдвиг: deep learning перешёл от открытого академического поля к индустрии, где крупномасштабное обучение централизуется в руках игроков вроде OpenAI, а веса и архитектуры всё чаще скрыты за API (GPT-4o). Это меняет правила для академии — студентам без доступа к тысячам GPU нужно учиться делать значимые исследования без гонки за масштабом. Одновременно лектор (работающий над biodiversity loss через ML) подсвечивает оборотную сторону: углеродная стоимость обучения моделей значима, и «массивное» не равно «нужное» — лёгкие модели вроде Stable Diffusion были крайне влиятельны. Выигрывают те, кто владеет данными и железом; проигрывают — кто полагается только на открытость, которая сжимается.
Идеи
- Курс требует писать к итоговому проекту блог-пост — отражение реальности, где у каждой ML-статьи теперь есть сопроводительный блог.
- Навык донести техническую сложность в визуальном/интерактивном формате без упрощения — отдельная ценная компетенция.
- Перцептрон не умер — он живёт компонентом «во многих-многих ёмкостях» внутри современных LLM.
- Теория и building blocks для нейросетей существовали задолго до их работоспособности — не хватало железа и программной парадигмы.
- «AI-зима» наступила не из-за отсутствия идей, а из-за неспособности эффективно обучать то, что уже было придумано.
- AlexNet — «shot heard around the world»: впервые превзошёл все методы на ImageNet.
- Человеческий мозг — «existence proof» того, что моделирование сложных явлений вообще возможно.
- Tanh выражается через сигмоиду: tanh(z) = 2·sigmoid(2z) − 1.
- Сигмоиду исходно интерпретировали как «firing rate» нейрона.
- Sigmoid плохо обусловлена: выходы центрированы вокруг 0.5, есть смещение.
- Выбор нелинейности — это чаще «что делает сеть обучаемой», а не «что моделирует данные».
- Подбор активаций по чужим статьям иронично зовётся «grad student gradient descent».
- Для синусоидальных/фурье-признаков иногда осмысленна синусоидальная активация — редкое исключение из «всегда ReLU».
- Двуслойный перцептрон даёт нелинейную классификацию как «пересечение двух ramp» — пирамидальную область выше остального.
- Размер обучающих данных — отдельное «измерение capacity»: мало данных → легко переобучиться, нет покрытия распределения.
- Cross-entropy измеряет «дистанцию» между предсказанным распределением и one-hot истиной.
- Выходы сети — это scores, не настоящие вероятности (лектор настойчиво берёт «probability» в кавычки).
- Обучение — это буквально «wiggling around weights», пока модель не совпадёт с желаемым выходом.
- Тензор = многомерный массив; каждый слой — это представление входных данных.
- Батчинг работает, потому что лоссы по точкам всё равно суммируются — их можно считать параллельно.
- Низкоуровневые признаки (линии, ориентации) переиспользуемы: классификатор линий → классификатор буквы T.
- Ранние слои CNN кластеризуют плохо по категориям, поздние — формируют концепты (кластеры «рыб»).
- Pre-trained представления — спасение, если нет big data или big compute.
- Масштаб мозга как метафора: червь — 302 нейрона, дрозофила — 15 000, человек — ~100 млрд, слон — 250 млрд.
- Вводная лекция, по прогнозу самого лектора, будет наименее просматриваемой — «просто логистика курса».
Инсайты
- Прогресс в ML определяется не одной переменной, а одновременным созреванием трёх независимых: алгоритмов, вычислительного железа и данных — отставание любой тормозит всё поле.
- История нейросетей — не линейный прогресс, а маятник коллективного энтузиазма, где научная критика и технический прорыв симметрично разворачивают настроение сообщества.
- Узкое место часто не идея, а её исполнимость: разрыв между «теоретически возможным» и «практически эффективным» — главный двигатель и тормоз области.
- Эмпирический характер deep learning (отсутствие теоретических гарантий выбора архитектуры/активаций) — это не временный пробел, а текущее состояние зрелости дисциплины.
- Универсальная аппроксимация бесполезна без эффективности: глубина побеждает ширину не по выразительности, а по экономии параметров.
- Феномен double descent показывает, что классическая bias-variance интуиция ломается в режиме переизбытка параметров — overparameterized-сети тяготеют к простым обобщающим функциям, а не к запоминанию.
- Капитализация знаний смещается от открытого общего блага (open source, modular reuse) к проприетарным API — централизация ресурсов конвертируется в закрытость.
- Ограниченность ресурсов — не помеха, а методологическое ограничение, формирующее отдельный класс ценных исследовательских навыков (креативность вместо масштаба).
- Этическая рамка для работы с ИИ удачно строится через аналогию с человеком-коллегой: норма не «что технически возможно», а «что бы я попросил у однокурсника».
- Экологическая цена вычислений делает «масштаб ради масштаба» не нейтральным инженерным выбором, а решением с внешними издержками.
Цитаты
«didn't work, and now it works» — 0:26 не работало, а теперь работает
«You're not going to be able to out-compete OpenAI on this research project» — 4:45 Вы не сможете переиграть OpenAI в этом учебном проекте
«to think about how you can still do impactful machine learning research in a way that is not just bigger is better» — 5:06 подумать, как всё ещё делать значимые ML-исследования так, чтобы «больше» не означало автоматически «лучше»
«the most predictive words and papers on the title for acceptance were belief propagation and Gaussian» — 17:27 самыми предсказывающими принятие словами в заголовке были belief propagation и Gaussian
«the title words most predictive of paper rejection were neural and network» — 17:39 словами, сильнее всего предсказывающими отклонение статьи, были «neural» и «network»
«So this is what we called the AI winter» — 17:46 Вот это мы и называли AI-зимой
«I can't tell you how much of a sort of shot heard around the world this was in our field» — 18:50 Не передать, каким «выстрелом, услышанным во всём мире» это стало для нашей области
«Machine learning does not work without large-scale curated labeled data» — 19:33 Машинное обучение не работает без крупномасштабных курируемых размеченных данных
«so things don't always need to be big to be good» — 23:01 значит, чтобы быть хорошим, не всегда нужно быть большим
«just try to imagine from an ethics perspective that this is like a peer in the class» — 10:31 просто представь с точки зрения этики, что это как однокурсник
«Don't ask AI to do your homework for you» — 11:17 Не проси ИИ делать за тебя домашку
«you'll never be able to solve the XOR problem with a single layer neural network» — 16:30 ты никогда не решишь XOR однослойной нейросетью
«if you're strongly in the negative region, the unit's what we call dead» — 34:30 если ты глубоко в отрицательной зоне, юнит, как мы говорим, мёртв
«it's not a hard science» — 38:03 это не точная наука
«it's a closely guarded secret what recipe of width versus depth that they use in GPT-whatever» — 49:29 это тщательно охраняемый секрет — какой рецепт ширины против глубины они используют в GPT-чём-то-там
«If you can come up with a really scientific way to answer that question, you could go and get a job there. Make seven figures» — 49:49 Если придумаешь по-настоящему научный ответ на этот вопрос — пойдёшь туда работать. Заработаешь семь цифр
«the problems I thought were problems aren't problems anymore» — 22:25 проблемы, которые я считал проблемами, больше не проблемы
«we're actually able to then potentially get even better, even though the models are massively over-parameterized» — 45:08 мы можем стать даже лучше, хотя модели чудовищно перепараметризованы
«these are not true probabilities, right? They're scores» — 52:35 это не настоящие вероятности — это scores
«doing it experimentally, burning all those trees» — 39:04 делая это экспериментально, сжигая все эти деревья
Факты
- Лектор начал изучать ML «около 13 лет назад», когда оно «не работало».
- Структура оценок курса: 65% — problem sets (пять P-set'ов по 1–2 недели), 35% — финальный проект.
- Группы для проекта — максимум 2 человека; compute организаторы почти не предоставляют (TBD).
- 1958 — Розенблатт публикует перцептрон в Psychological Review.
- 1972 — Минский и Паперт, книга «Perceptrons, Expanded Edition».
- 1986 — книга «Parallel Distributed Processing» вводит backpropagation.
- 1998 — Ян ЛеКун публикует свёрточные нейросети (CNN).
- 2000 — NeurIPS; слова «neural»/«network» предсказывали отклонение статей.
- 2012 — Alex Krzyzewski (whisper-ошибка; имеется в виду Alex Krizhevsky) с соавторами публикуют AlexNet, обучив CNN на GPU; превзошли все методы на ImageNet.
- ReLU дала ~6x ускорение сходимости против tanh (по статье Крижевского).
- Феномен обобщения overparameterized-сетей описан в статье «Double Descent».
- Масштаб данных сегодня: датасеты на миллиард+ точек (упоминаются LION, ImageNet), обучение на тысячах GPU, миллиард+ параметров, стоимость обучения — «многие миллионы долларов» (про GPT-4o лектор оговаривается: «not public knowledge… but I would bet»).
- Нейроны: червь — 302, дрозофила — 15 000, человек — ~100 млрд, слон — 250 млрд.
- Лектор работает над biodiversity loss в глобальном масштабе и «много работает со слонами».
- Текущий год по контексту лекции — 2024; прогноз про «где будем в 2028» дан с хеджем «let's see».
Источники
- Perceptrons, Expanded Edition — Minsky & Papert (1972)
- Parallel Distributed Processing (1986) — ввод backpropagation
- Double Descent (статья о феномене обобщения)
- AlexNet — Krizhevsky et al. (2012)
- ImageNet, LION — крупномасштабные датасеты
- PyTorch, TensorFlow, JAX — фреймворки автодифференцирования
- Люди: Rosenblatt, Minsky, Papert, Yann LeCun, Alex Krizhevsky; гостевые лекторы курса — Jeremy, Phil (лекция «The Hacker's Guide to Deep Learning»)
- Проекты/модели: AlphaGo, NeRF, Stable Diffusion, GPT-4o, ChatGPT
Рекомендации
- Если не уверены, что владеете PyTorch — посетите один из двух туториалов на следующей неделе (часть P-set'ов завязана на PyTorch-код).
- Прочитать статью Double Descent, чтобы разобраться с различием overfitting / overparameterization.
- Относиться к ИИ-ассистентам как к человеку-коллеге: можно обсуждать, нельзя просить решить за себя; фиксировать в P-set имена соавторов и какой ИИ/как использовался.
- Если встретили незнакомый базовый блок (gradient descent, MLP, ReLU) — подтянуть его через MIT OpenCourseWare до начала курса.
Итог
Deep learning — это нейросети плюс дифференцируемое программирование, чей реальный взлёт обеспечило совпадение теории, программируемого железа и больших данных, но почти всё в нём по-прежнему держится на эмпирике, а не на гарантиях.