Лек 01. Введение в глубокое обучение

MIT OpenCourseWare11 февраля 2026382 97912 12410 мин чтения31 мая, 05:31

Коротко

Это вводная лекция продвинутого аспирантского курса по deep learning (по контексту — MIT), где deep learning определяется как сочетание двух компонентов: нейросетей (стеки линейных преобразований с поэлементными нелинейностями) и дифференцируемого программирования (параметризация частей программы с градиентной оптимизацией). Лектор проходит историю нейросетей через цикл энтузиазма: перцептрон Розенблатта (1958), критика Минского-Паперта (1972), backpropagation (1986), CNN ЛеКуна (1998), «AI-зима» около 2000-го, прорыв AlexNet (2012) — и привязывает успех ML к триаде «теория + программирование + данные». Разбираются базовые блоки, которые студенты уже должны знать: gradient descent, перцептрон, нелинейности (step/tanh/sigmoid/ReLU), стэкинг слоёв, softmax cross-entropy, тензоры и батчинг. Отдельно обсуждается, что overparameterized-сети вопреки классической теории не переобучаются, а обобщаются (феномен double descent), и что соотношение ширины/глубины — не наука, а закрытый секрет лабораторий вроде OpenAI. Лектор честно фиксирует: индустрия движется к закрытости (API вместо весов) и централизации крупномасштабного ML.

Главный тезис

Deep learning держится на связке нейросетей и дифференцируемого программирования, а его реальный успех обеспечила не только теория, но равно — эффективное программирование железа (GPU) и крупномасштабные размеченные данные; при этом многое в области остаётся эмпирикой без теоретических гарантий.

Ключевые идеи

  • 1:16 — deep learning = нейросети (стеки линейных преобразований с поэлементными нелинейностями) + дифференцируемое программирование, где градиентная оптимизация подбирает параметры.
  • 2:11 — прорывы рождаются из смеси теории и практики, и обе нужны для будущего прогресса.
  • 4:45 — финальный проект не должен гнаться за SOTA: «bigger is better» не для всех, ценный навык — делать impactful research при централизации крупного ML.
  • 13:55перцептрон (1958) — первая нейросеть: сумма пиксельных представлений → нелинейность → категоризация; этот блок до сих пор внутри ChatGPT.
  • 14:54 — Минский и Паперт (1972) математически описали пределы перцептрона и обрушили энтузиазм.
  • 15:38 — книга Parallel Distributed Processing (1986) ввела backpropagation, что позволило обучать многослойные перцептроны и решить XOR-проблему.
  • 17:27 — на NeurIPS-2000 слова «neural» и «network» в заголовке предсказывали отклонение статьи — это и есть «AI-зима».
  • 18:24AlexNet (2012): прорыв не в архитектуре, а в умении перепрофилировать GPU под обучение сетей.
  • 19:33 — третий критичный компонент наряду с теорией и программированием — крупномасштабные размеченные данные (ImageNet).
  • 19:50 — энтузиазм к нейросетям колеблется циклами ~28 лет; сейчас — пик хайпа.
  • 28:31 — step-функция плоха как нелинейность: недифференцируема, градиент ноль — backprop не знает, куда двигаться.
  • 33:55ReLU = max(0,z) — дефолтный выбор: эффективна, дала ~6x ускорение сходимости против tanh, но «мёртвые» юниты в отрицательной зоне.
  • 40:55 — два+ слоя с нетривиальной нелинейностью — универсальный аппроксиматор, но широкая 2-слойная сеть крайне неэффективна против узкой глубокой.
  • 44:23 — overparameterized-сети должны были бы переобучаться, но обобщаются — double descent проходит порог интерполяции и улучшает результат.
  • 49:29 — соотношение ширины и глубины в GPT — закрытый секрет; научного рецепта нет, кто найдёт — «get a job, make seven figures».

Почему это важно

Лекция фиксирует структурный сдвиг: deep learning перешёл от открытого академического поля к индустрии, где крупномасштабное обучение централизуется в руках игроков вроде OpenAI, а веса и архитектуры всё чаще скрыты за API (GPT-4o). Это меняет правила для академии — студентам без доступа к тысячам GPU нужно учиться делать значимые исследования без гонки за масштабом. Одновременно лектор (работающий над biodiversity loss через ML) подсвечивает оборотную сторону: углеродная стоимость обучения моделей значима, и «массивное» не равно «нужное» — лёгкие модели вроде Stable Diffusion были крайне влиятельны. Выигрывают те, кто владеет данными и железом; проигрывают — кто полагается только на открытость, которая сжимается.

Идеи

  • Курс требует писать к итоговому проекту блог-пост — отражение реальности, где у каждой ML-статьи теперь есть сопроводительный блог.
  • Навык донести техническую сложность в визуальном/интерактивном формате без упрощения — отдельная ценная компетенция.
  • Перцептрон не умер — он живёт компонентом «во многих-многих ёмкостях» внутри современных LLM.
  • Теория и building blocks для нейросетей существовали задолго до их работоспособности — не хватало железа и программной парадигмы.
  • «AI-зима» наступила не из-за отсутствия идей, а из-за неспособности эффективно обучать то, что уже было придумано.
  • AlexNet — «shot heard around the world»: впервые превзошёл все методы на ImageNet.
  • Человеческий мозг — «existence proof» того, что моделирование сложных явлений вообще возможно.
  • Tanh выражается через сигмоиду: tanh(z) = 2·sigmoid(2z) − 1.
  • Сигмоиду исходно интерпретировали как «firing rate» нейрона.
  • Sigmoid плохо обусловлена: выходы центрированы вокруг 0.5, есть смещение.
  • Выбор нелинейности — это чаще «что делает сеть обучаемой», а не «что моделирует данные».
  • Подбор активаций по чужим статьям иронично зовётся «grad student gradient descent».
  • Для синусоидальных/фурье-признаков иногда осмысленна синусоидальная активация — редкое исключение из «всегда ReLU».
  • Двуслойный перцептрон даёт нелинейную классификацию как «пересечение двух ramp» — пирамидальную область выше остального.
  • Размер обучающих данных — отдельное «измерение capacity»: мало данных → легко переобучиться, нет покрытия распределения.
  • Cross-entropy измеряет «дистанцию» между предсказанным распределением и one-hot истиной.
  • Выходы сети — это scores, не настоящие вероятности (лектор настойчиво берёт «probability» в кавычки).
  • Обучение — это буквально «wiggling around weights», пока модель не совпадёт с желаемым выходом.
  • Тензор = многомерный массив; каждый слой — это представление входных данных.
  • Батчинг работает, потому что лоссы по точкам всё равно суммируются — их можно считать параллельно.
  • Низкоуровневые признаки (линии, ориентации) переиспользуемы: классификатор линий → классификатор буквы T.
  • Ранние слои CNN кластеризуют плохо по категориям, поздние — формируют концепты (кластеры «рыб»).
  • Pre-trained представления — спасение, если нет big data или big compute.
  • Масштаб мозга как метафора: червь — 302 нейрона, дрозофила — 15 000, человек — ~100 млрд, слон — 250 млрд.
  • Вводная лекция, по прогнозу самого лектора, будет наименее просматриваемой — «просто логистика курса».

Инсайты

  • Прогресс в ML определяется не одной переменной, а одновременным созреванием трёх независимых: алгоритмов, вычислительного железа и данных — отставание любой тормозит всё поле.
  • История нейросетей — не линейный прогресс, а маятник коллективного энтузиазма, где научная критика и технический прорыв симметрично разворачивают настроение сообщества.
  • Узкое место часто не идея, а её исполнимость: разрыв между «теоретически возможным» и «практически эффективным» — главный двигатель и тормоз области.
  • Эмпирический характер deep learning (отсутствие теоретических гарантий выбора архитектуры/активаций) — это не временный пробел, а текущее состояние зрелости дисциплины.
  • Универсальная аппроксимация бесполезна без эффективности: глубина побеждает ширину не по выразительности, а по экономии параметров.
  • Феномен double descent показывает, что классическая bias-variance интуиция ломается в режиме переизбытка параметров — overparameterized-сети тяготеют к простым обобщающим функциям, а не к запоминанию.
  • Капитализация знаний смещается от открытого общего блага (open source, modular reuse) к проприетарным API — централизация ресурсов конвертируется в закрытость.
  • Ограниченность ресурсов — не помеха, а методологическое ограничение, формирующее отдельный класс ценных исследовательских навыков (креативность вместо масштаба).
  • Этическая рамка для работы с ИИ удачно строится через аналогию с человеком-коллегой: норма не «что технически возможно», а «что бы я попросил у однокурсника».
  • Экологическая цена вычислений делает «масштаб ради масштаба» не нейтральным инженерным выбором, а решением с внешними издержками.

Цитаты

«didn't work, and now it works» — 0:26 не работало, а теперь работает

«You're not going to be able to out-compete OpenAI on this research project» — 4:45 Вы не сможете переиграть OpenAI в этом учебном проекте

«to think about how you can still do impactful machine learning research in a way that is not just bigger is better» — 5:06 подумать, как всё ещё делать значимые ML-исследования так, чтобы «больше» не означало автоматически «лучше»

«the most predictive words and papers on the title for acceptance were belief propagation and Gaussian» — 17:27 самыми предсказывающими принятие словами в заголовке были belief propagation и Gaussian

«the title words most predictive of paper rejection were neural and network» — 17:39 словами, сильнее всего предсказывающими отклонение статьи, были «neural» и «network»

«So this is what we called the AI winter» — 17:46 Вот это мы и называли AI-зимой

«I can't tell you how much of a sort of shot heard around the world this was in our field» — 18:50 Не передать, каким «выстрелом, услышанным во всём мире» это стало для нашей области

«Machine learning does not work without large-scale curated labeled data» — 19:33 Машинное обучение не работает без крупномасштабных курируемых размеченных данных

«so things don't always need to be big to be good» — 23:01 значит, чтобы быть хорошим, не всегда нужно быть большим

«just try to imagine from an ethics perspective that this is like a peer in the class» — 10:31 просто представь с точки зрения этики, что это как однокурсник

«Don't ask AI to do your homework for you» — 11:17 Не проси ИИ делать за тебя домашку

«you'll never be able to solve the XOR problem with a single layer neural network» — 16:30 ты никогда не решишь XOR однослойной нейросетью

«if you're strongly in the negative region, the unit's what we call dead» — 34:30 если ты глубоко в отрицательной зоне, юнит, как мы говорим, мёртв

«it's not a hard science» — 38:03 это не точная наука

«it's a closely guarded secret what recipe of width versus depth that they use in GPT-whatever» — 49:29 это тщательно охраняемый секрет — какой рецепт ширины против глубины они используют в GPT-чём-то-там

«If you can come up with a really scientific way to answer that question, you could go and get a job there. Make seven figures» — 49:49 Если придумаешь по-настоящему научный ответ на этот вопрос — пойдёшь туда работать. Заработаешь семь цифр

«the problems I thought were problems aren't problems anymore» — 22:25 проблемы, которые я считал проблемами, больше не проблемы

«we're actually able to then potentially get even better, even though the models are massively over-parameterized» — 45:08 мы можем стать даже лучше, хотя модели чудовищно перепараметризованы

«these are not true probabilities, right? They're scores» — 52:35 это не настоящие вероятности — это scores

«doing it experimentally, burning all those trees» — 39:04 делая это экспериментально, сжигая все эти деревья

Факты

  • Лектор начал изучать ML «около 13 лет назад», когда оно «не работало».
  • Структура оценок курса: 65% — problem sets (пять P-set'ов по 1–2 недели), 35% — финальный проект.
  • Группы для проекта — максимум 2 человека; compute организаторы почти не предоставляют (TBD).
  • 1958 — Розенблатт публикует перцептрон в Psychological Review.
  • 1972 — Минский и Паперт, книга «Perceptrons, Expanded Edition».
  • 1986 — книга «Parallel Distributed Processing» вводит backpropagation.
  • 1998 — Ян ЛеКун публикует свёрточные нейросети (CNN).
  • 2000 — NeurIPS; слова «neural»/«network» предсказывали отклонение статей.
  • 2012 — Alex Krzyzewski (whisper-ошибка; имеется в виду Alex Krizhevsky) с соавторами публикуют AlexNet, обучив CNN на GPU; превзошли все методы на ImageNet.
  • ReLU дала ~6x ускорение сходимости против tanh (по статье Крижевского).
  • Феномен обобщения overparameterized-сетей описан в статье «Double Descent».
  • Масштаб данных сегодня: датасеты на миллиард+ точек (упоминаются LION, ImageNet), обучение на тысячах GPU, миллиард+ параметров, стоимость обучения — «многие миллионы долларов» (про GPT-4o лектор оговаривается: «not public knowledge… but I would bet»).
  • Нейроны: червь — 302, дрозофила — 15 000, человек — ~100 млрд, слон — 250 млрд.
  • Лектор работает над biodiversity loss в глобальном масштабе и «много работает со слонами».
  • Текущий год по контексту лекции — 2024; прогноз про «где будем в 2028» дан с хеджем «let's see».

Источники

  • Perceptrons, Expanded Edition — Minsky & Papert (1972)
  • Parallel Distributed Processing (1986) — ввод backpropagation
  • Double Descent (статья о феномене обобщения)
  • AlexNet — Krizhevsky et al. (2012)
  • ImageNet, LION — крупномасштабные датасеты
  • PyTorch, TensorFlow, JAX — фреймворки автодифференцирования
  • Люди: Rosenblatt, Minsky, Papert, Yann LeCun, Alex Krizhevsky; гостевые лекторы курса — Jeremy, Phil (лекция «The Hacker's Guide to Deep Learning»)
  • Проекты/модели: AlphaGo, NeRF, Stable Diffusion, GPT-4o, ChatGPT

Рекомендации

  • Если не уверены, что владеете PyTorch — посетите один из двух туториалов на следующей неделе (часть P-set'ов завязана на PyTorch-код).
  • Прочитать статью Double Descent, чтобы разобраться с различием overfitting / overparameterization.
  • Относиться к ИИ-ассистентам как к человеку-коллеге: можно обсуждать, нельзя просить решить за себя; фиксировать в P-set имена соавторов и какой ИИ/как использовался.
  • Если встретили незнакомый базовый блок (gradient descent, MLP, ReLU) — подтянуть его через MIT OpenCourseWare до начала курса.

Итог

Deep learning — это нейросети плюс дифференцируемое программирование, чей реальный взлёт обеспечило совпадение теории, программируемого железа и больших данных, но почти всё в нём по-прежнему держится на эмпирике, а не на гарантиях.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «MIT OpenCourseWare»

Все видео