1: Введение в нейросети и глубокое обучение; Обучение глубоких нейросетей

MIT OpenCourseWare7 января 2026315 8327 49610 мин чтениясегодня, 03:25

Искусственный Интеллект Технологии Наука Образование

Коротко

Лекция прослеживает путь ИИ от рукописных правил до генеративных моделей и показывает, почему каждый предыдущий подход упирался в стену. Традиционный ИИ провалился не из-за скорости, а из-за парадокса Полани: мы знаем больше, чем можем рассказать, а мир полон крайних случаев. Машинное обучение сняло правила, но потребовало ручного feature engineering, из-за чего PhD тратили по четыре года на одну репрезентацию для одной задачи. Deep learning убил это узкое горлышко тем, что учит репрезентации сам, и родился из совпадения трёх сил: новые алгоритмы, много данных, GPU. Вторая половина лекции разбирает нейросеть как логистическую регрессию, у которой в середину напихали слои нелинейных преобразований, и это единственное место, где у тебя есть свобода действий.

Главный тезис

Нейросеть это старая логистическая регрессия, в середину которой вставили много слоёв нелинейных преобразований, и вся мощь deep learning идёт из того, что эти преобразования (репрезентации) теперь учатся автоматически, а не пишутся руками.

Ключевые идеи

0:26: ИИ как поле родился в 1956 в Дартмуте (не в MIT), и основатели были так уверены, что рассчитывали «в основном решить» задачу к осени.
2:59: традиционный подход провалился не потому что медленный (компьютеры ускоряются), а потому что правила хрупкие и не обобщаются: реальный мир даёт бесконечное число ситуаций.
3:19: парадокс Полани: ты за 20 миллисекунд отличаешь кота от собаки, но не можешь объяснить как; а если объясняешь, объяснение часто не совпадает с тем, что реально делает мозг.
3:57: человек как источник правил неполон и врёт, поэтому переложить его знание в код напрямую невозможно.
4:51: машинное обучение это просто обучение функции вход→выход на примерах статистическими методами; линейная регрессия уже была ML.
5:41: ML работает хорошо только на структурированных данных, которые ложатся в строки и столбцы таблицы.
8:16: сырой пиксель (число 0–255, «количество света») не связан с тем, что изображено: 251 может быть небом, водой или синей краской.
9:03: превращение неструктурированных данных в признаки называется репрезентацией, и это ключевое слово для всего deep learning.
10:22: ручная разработка репрезентаций была человеческим узким горлышком: PhD в computer vision тратил четыре года на признаки для одной задачи.
10:41: deep learning автоматически учит репрезентации из сырого входа; «automatically» это ключевое слово.
12:29: deep learning возник из трёх сил: новые алгоритмы, много данных, параллельное железо (GPU), приложенные к старой идее нейросетей.
13:26: главное приложение: за любой сенсор (камера, микрофон) можно приткнуть deep learning и заставить его считать, распознавать, классифицировать; так надо смотреть на мир в поисках стартап-идей.
18:36: раньше сети только потребляли неструктурированные данные, генеративный ИИ научил их создавать их (текст, картинки, звук).
29:42: то, что в регрессии звалось коэффициентами и свободным членом, здесь называют весами и смещениями (weights и biases); утечка «весов модели» это утечка коэффициентов.
34:31: в середину сети обязательно ставят нелинейные активации (иначе весь труд насмарку); рабочая лошадка это ReLU = max(число, 0).
40:36: логистическая регрессия это нейросеть без скрытых слоёв, а deep learning это просто нейросеть с очень многими слоями.

Почему это важно

Лекция это входная точка курса, где половину семестра студенты будут копать нейросети, поэтому спикер закладывает интуицию, а не математику. Выигрывают те, кто научится видеть мир как набор сенсоров с прикрученным deep learning: он прямо говорит, что монопольных окон надолго не бывает, бывают короткие, и первый с фичей вроде «умного бинокля, определяющего птицу» получает фору на три месяца. Упомянуты реальные игроки и системы: ResNet как первая сеть, обошедшая человека в классификации изображений, система детекции рака груди Регины Барзилай из MIT CSAIL, развёрнутая в Mass General, Face ID, беспилотники, промышленный визуальный контроль, ChatGPT/GPT-4, AlphaGo, AlphaFold. Смысл для слушателя: всё текущее возбуждение вокруг ИИ упирается в deep learning, поймёшь его, и откроется много возможностей.

Идеи

Основатели ИИ были настолько умны, что недооценили задачу: думали закрыть её за одно лето 1956 года.
Джон Маккарти изобрёл Lisp и потом «дезертировал на Западное побережье».
Скорость обучения правил не была проблемой, потому что железо всё равно дешевеет и ускоряется, спикер прямо снял это возражение студента.
Настоящий убийца правил не объём, а то, что мир бесконечен, а обучаешь ты на конечной выборке.
Человек не может рассказать, как думает, и даже когда пытается, рассказ не совпадает с реальной работой мозга: двойная поломка.
Категориальные переменные (курит: да/нет) легко оцифровать через one-hot, и это всё ещё структурированные данные.
Собаку спикера звали Google, и его выпускники DMD её помнят.
Три таблицы чисел (красный, зелёный, синий) это и есть картинка внутри компьютера.
Deep learning это конвейер: сырой вход → куча слоёв, учащих репрезентации → маленькая регрессия на конце.
Смотреть на мир надо так: где тут сенсор и что я могу прицепить за ним.
Барзилай прогнала свою систему по собственной старой маммограмме, которую радиолог когда-то счёл чистой, и система нашла проблему.
Неправильная разметка (радиолог ошибся пять лет назад) попадает в обучение как неверный label, но нейросети терпимы к небольшому шуму в метках.
Ground truth это связка «изображение + вердикт человека», именно она обучает модель.
Мультимодальность станет нормой: к концу года текстовая-только модель будет выглядеть как старомодная диковина.
GPT-4 правильно прочитал «сложнейший парковочный знак Сан-Франциско» и ответил одной строкой, спикер перепроверил вручную.
Судье не объяснишь «извините, модель галлюцинировала», поэтому вывод надо перепроверять.
Запись формулы как графа делает её несравнимо легче для мышления, чем сама громоздкая функция.
Единственная свобода у тебя это середина сети: вход фиксирован, выход фиксирован.
Самое базовое, что можно сделать с данными в любой математике, прогнать через линейную функцию и посмотреть.
Кружок с плюсом это просто визуальное сокращение для линейной функции.
Каждый дополнительный слой даёт сети не результат, а потенциал выучить что-то интересное.
Связь нейросетей с нейронаукой сильно оспаривается, и для практики спикер советует про неё не думать.
ReLU: при отрицательном входе «не впечатлён», выдаёт ноль; при положительном «просыпается».
Многие ветераны считают именно ReLU одним из ключевых факторов успеха deep learning.
Существует зоопарк активаций (tanh, leaky ReLU, GELU, swish), потому что исследовательская креативность «сорвалась с петель».
Для скрытых слоёв достаточно ReLU по умолчанию, для выхода выбора нет: тип выхода диктует активацию.
Dropout случайно выключает часть узлов на каждом проходе, чтобы бороться с переобучением.
Neural Architecture Search подбирает архитектуру автоматически, иногда через обучение с подкреплением.
Считать параметры сети руками первые пару раз полезно, потом станет рефлексом; про bias все забывают (12 вместо 13).
Рекуррентные сети выпали из курса, потому что трансформеры оказались способнее и стали нормой.

Инсайты

Провал символьного ИИ был не инженерным, а эпистемологическим: упёрлись не в мощность машин, а в границу того, что человек способен вербализовать.
Каждая смена парадигмы в ИИ снимала одно человеческое узкое горлышко: правила → примеры, ручные признаки → авто-репрезентации, потребление данных → генерация.
Прогресс тут не в усложнении, а в удалении человека из петли: чем меньше человек вставляет руками, тем дальше уезжает система.
Мощь идёт из сложности, а сложность из свободы преобразовать вход много раз; отними преобразования и останется беспомощная линейная модель.
Абстракция как рычаг мышления: одно и то же вычисление в виде формулы непостижимо, а в виде графа очевидно, форма записи меняет способность рассуждать.
Ценность разметки как «истины» условна: ground truth это чужое суждение, которое само может быть ошибкой, и система должна быть устойчива к вранью в собственном фундаменте.
Конкурентное преимущество на новой технологии по своей природе временное: ценность в том, чтобы первым увидеть, куда приложить готовый общий инструмент.
Универсальность важнее хитрости: одна простая идея (вход→репрезентации→регрессия) объясняет и ChatGPT, и AlphaFold, обобщённость бьёт специализацию.
Автоматизация не отменяет проектных решений человека, а сдвигает их на уровень выше: не признаки, а архитектуру и гиперпараметры.
Терминологический сдвиг (коэффициенты→веса) показывает, как новое поле переупаковывает старую математику, создавая иллюзию новизны там, где механика прежняя.

Цитаты

«Sadly, it didn't originate at MIT, it originated at Dartmouth.», 0:29 Увы, поле родилось не в MIT, а в Дартмуте.

«We know more than we can tell. This is called Polanyi's paradox.», 3:19 Мы знаем больше, чем можем рассказать. Это парадокс Полани.

«So you're incomplete and a liar.», 3:57 Так что ты неполон и врёшь.

«AI sounds cooler.», 5:35 ИИ звучит круче.

«The raw form of the data has no intrinsic meaning with the underlying thing.», 8:14 Сырые данные не имеют внутренней связи с тем, что они описывают.

«Automatically is the keyword.», 10:52 «Автоматически» это ключевое слово.

«I literally get goosebumps every so often that something so simple could be so powerful.», 11:53 У меня буквально мурашки время от времени, что такое простое может быть таким мощным.

«I'm just so lucky to be alive and working during this period.», 12:00 Мне просто повезло жить и работать в это время.

«There are no long-term monopoly windows in the world. There are only short-term windows.», 16:58 Долгих монопольных окон в мире нет. Есть только короткие.

«Can you imagine getting a parking ticket and telling the judge, I'm sorry, I didn't realize it was hallucinating.», 20:40 Представь, получаешь штраф за парковку и говоришь судье: извините, я не понял, что оно галлюцинировало.

«X and Y can be anything, and it can be multimodal.», 24:09 X и Y могут быть чем угодно, и это может быть мультимодально.

«It's sort of like the Skynet of image classification.», 41:26 Это что-то вроде Скайнета классификации изображений.

«The ReLU is not impressed, it's going to send a zero out.», 44:11 ReLU не впечатлён, он выдаст ноль.

«Then we come to the hero of deep learning, which is the rectified linear unit.», 43:24 И вот мы подходим к герою deep learning, к rectified linear unit.

«A neural network is nothing more than repeatedly transformed inputs, which are finally fed to a linear or logistic regression model.», 36:19 Нейросеть это всего лишь многократно преобразованные входы, которые в конце подаются в линейную или логистическую регрессию.

«It is from this complexity springs the ability of these networks to do basically magical things.», 54:50 Именно из этой сложности рождается способность сетей делать по сути магические вещи.

«The magic here is that we don't have to do anything. We only have to set it up, sit back often for many hours, and watch it do its thing.», 48:43 Магия в том, что нам ничего не надо делать. Только настроить, откинуться на часы и смотреть, как оно работает.

Факты

Поле ИИ основано в 1956 году в Дартмуте; на момент лекции прошло «67–68 лет».
Основатели, включая Марвина Мински (основал MIT AI Lab), Джона Маккарти (изобрёл Lisp) и Клода Шеннона (изобрёл теорию информации, профессор MIT), рассчитывали в основном решить ИИ к той же осени.
Спикер называет три переломных прорыва ИИ: традиционный подход, машинное обучение / deep learning, генеративный ИИ.
Различение кота и собаки человеком занимает, «кажется, померили около 20 миллисекунд» (хедж спикера).
Пиксель кодируется числом от 0 до 255 как «количество света»; картинка = три таблицы (R, G, B).
Спикер занимается deep learning «около 10 лет».
Deep learning вырос из трёх сил: новые алгоритмы, много данных, GPU (graphics processing units).
ResNet, по мнению спикера, первая сеть, превзошедшая человека в классификации изображений; на следующей неделе её будут дообучать в классе.
Регина Барзилай из MIT CSAIL построила систему детекции рака груди по маммограмме, развёрнутую в Mass General Hospital; сама она пережившая рак груди, и её система нашла проблему на её собственной старой маммограмме, признанной радиологом чистой (спикер: «I heard that», по слухам).
GPT-4 правильно разобрал сложный парковочный знак в Сан-Франциско («да, можно парковаться до часа начиная с 16:00»), спикер перепроверил вручную.
Пример «первого в мире умного бинокля», определяющего вид птицы, спикер видел «две недели назад».
В сети из 2 входов, 1 скрытого слоя на 3 нейрона и сигмоида на выходе, 13 параметров (частая ошибка 12, забывают bias).
Курс не будет разбирать робототехнику (embodied intelligence) и рекуррентные сети из-за нехватки времени и доминирования трансформеров; фокус на трансформерах и (на следующей неделе) свёрточных сетях.
Прочие активации, упомянутые вскользь: tanh, leaky ReLU, GELU, swish; для многоклассового выхода: Softmax.

Источники

Парадокс Полани (Polanyi's paradox): концепция «мы знаем больше, чем можем рассказать».
ResNet, AlphaGo, AlphaFold, ChatGPT / GPT-4: упомянутые системы.
Регина Барзилай (MIT CSAIL): система детекции рака груди в Mass General.
Люди: Марвин Мински, Джон Маккарти, Клод Шеннон.
Инструменты: R (GLM), statsmodels, scikit-learn (для логистической регрессии); Neural Architecture Search (NAS).
Курс The Analytics Edge: пример курса, где студенты уже делали ML другими методами.

Итог

Вся революция ИИ сводится к одной простой идее: перестать объяснять машине мир руками и дать ей самой выучить, как его представлять, а нейросеть это просто логистическая регрессия с горой нелинейных слоёв посередине.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «MIT OpenCourseWare»

Все видео

Как говорить

Как говорить

Лек 01. Введение в глубокое обучение

Лек 01. Введение в глубокое обучение

Лекция 1: Введение в принятие индивидуальных решений

Лекция 1: Введение в принятие индивидуальных решений