Stanford CS231N Глубокое обучение для компьютерного зрения | Весна 2025 | Лекция 1: Введение

Stanford Online2 сентября 2025592 1108 51411 мин чтениявчера, 21:21

Технологии Искусственный Интеллект Нейробиология Обучение

Коротко

Фей-Фей Ли открывает курс CS231N экскурсом на 540 миллионов лет назад: зрение началось не с человека, а с трилобита, у которого в кембрийском взрыве появились светочувствительные клетки. Именно сенсоры превратили пассивный метаболизм в активную жизнь и запустили эволюцию интеллекта. Дальше она прослеживает две параллельные линии: компьютерное зрение (от Хьюбела и Визеля через тезис Ларри Робертса и Дэвида Марра к ImageNet) и нейросети (от перцептрона через неокогнитрон Фукусимы и backpropagation к AlexNet 2012 года) - они сошлись в глубоком обучении. Центральная мысль лекции: прорыв 2012-го дали не сами архитектуры, а признание данных полноправным гражданином машинного обучения - ImageNet с 15 миллионами картинок сделал высокоёмкие модели обучаемыми. Зрение принципиально отличается от языка: язык генерируется мозгом и одномерен, а зрение решает некорректно поставленную задачу восстановления 3D-мира из 2D-проекции. Вторая половина лекции, у профессора Адели, размечает программу курса: от линейных классификаторов и CNN до трансформеров, диффузионных моделей, vision-language и воплощённых агентов.

Главный тезис

Современный взрыв ИИ держится на трёх сходящихся силах: вычисления, алгоритмы и данные. Сдвинули компьютерное зрение с мёртвой точки в 2012 году именно недооценённые данные, ImageNet, а не архитектуры.

Ключевые идеи

1:07 - зрение это не часть интеллекта, а краеугольный камень: разгадать визуальный интеллект значит разгадать интеллект вообще.
3:20 - история зрения началась 540 млн лет назад, и кембрийский взрыв видов лучше всего объясняется появлением глаз, а не климатом или химией океана.
4:53 - без сенсоров жизнь это пассивный метаболизм; свет превращает организм в активного участника среды, которую он хочет менять и в которой хочет выжить.
8:04 - Хьюбел и Визель электродами в зрительной коре кошки открыли две вещи: у нейронов есть локальные рецептивные поля и зрительный путь иерархичен.
10:00 - ранние нейроны ловят ориентированные края, дальше сигнал идёт в детекторы углов и объектов; эта иерархия напрямую предсказала архитектуру нейросетей.
11:02 - первой диссертацией по CV считают работу Ларри Робертса (1963) о восприятии формы; в 1966-м MIT-профессор нанял студентов «решить зрение за лето».
14:47 - зрение это некорректно поставленная задача: восстановить 3D-мир из 2D-проекции на сетчатке математически недоопределено, природа решила это несколькими глазами и триангуляцией.
16:12 - язык не существует в природе, он генерируется мозгом и одномерен-последователен; поэтому LLM так мощны. Зрение же отражает физический мир и решает другие задачи.
22:43 - человеческий мозг выдаёт категориальный сигнал уже через 150 мс (Симон Торп, ЭЭГ); это всего несколько «прыжков» между нейронами.
4:26 - зрение развило нервную систему; больше половины кортикальных клеток человека заняты обработкой зрения.
27:20 - неокогнитрон Фукусимы вручную повторил зрительный путь (свёртки + пулинг), но каждый из сотен параметров задавался руками.
28:43 - прорыв 1986-го это backpropagation: целевая функция коррекции ошибки распространяет её назад по сети через цепное правило, убрав ручную настройку.
32:24 - лаборатория Ли собрала ImageNet: 15 млн размеченных картинок по 22 000 категорий (по числу категорий, что человек осваивает в раннем детстве).
34:07 - в 2012-м AlexNet Хинтона урезал ошибку почти вдвое; архитектурно он мало отличался от неокогнитрона, но добавились backprop и данные.
40:36 - из «зимы ИИ» поле вышло в «глобальное потепление ИИ», кривая flop-на-доллар у GPU NVIDIA взлетела, когда глубокое обучение начало их разгонять.

Почему это важно

Лекция задаёт канон происхождения современного ИИ, и в этом каноне ImageNet и момент 2012-го стоят в центре: что удобно, ведь рассказывает его сама создательница ImageNet. Выигрывают те, кто понял роль данных: NVIDIA (лекция читается в её зале, в здании Хуанга), Хинтон, ЛеКун и Бенджио с премией Тьюринга 2018-го и Нобелем Хинтона по физике 2024-го. Проигрывают те, кто десятилетиями полировал архитектуры, недооценивая данные: из-за этого сети ЛеКуна упирались в потолок на распознавании цифр. Для студента из медицины, права или бизнеса посыл прямой: зрение проникло в радиологию, в снимок чёрной дыры, в экологию, а вместе с силой пришли предвзятость данных и вопрос, стоит ли отдавать ИИ решения о кредите или работе.

Идеи

До кембрийского взрыва жизнь была «расслабленной»: плавала в воде, суши и наземных животных ещё не было.
Первый глаз трилобита это не линза с сетчаткой, а буквально дырка-обскура, собирающая свет.
Зрение и осязание - два древнейших чувства животных.
Леонардо да Винчи изучал камеру-обскуру, но мысль о проекции через отверстие есть ещё у мыслителей древней Греции и Китая.
Камера так же недостаточна для видения, как глаз: это лишь аппарат; суть в том, как рождается визуальный интеллект.
Хьюбел и Визель получили Нобелевку по медицине спустя ~20 с лишним лет после работы 1959 года.
Дэвид Марр предложил лестницу представлений: primal sketch → 2.5D-эскиз (разделение глубин) → полное 3D как «святой Грааль».
Люди сами восстанавливают 3D без геометрической точности: я знаю форму примерно, а не с точностью до миллиметра.
Эксперимент Бидермана: одинаково спроецированные на сетчатку велосипеды распознаются по-разному, если картинку «расшатать»: контекст сцены влияет на восприятие объекта.
В опыте 1970-х люди безошибочно находят человека в видео при 10 Гц (100 мс на кадр), не зная заранее ни кадра, ни как объект выглядит.
В мозге есть специализированные зоны под лица, места и части тела (открытия нейрофизиологов MIT 1990–2000-х).
Родни Брукс, автор «обобщённых цилиндров» в Стэнфорде, стал одним из великих робототехников и основателем Roomba, и в день лекции читал доклад тут же на кампусе.
Алгоритм детекции лиц из диссертации Ли попал в цифровые камеры через пять лет как автофокус по лицу.
Интернет + цифровые камеры дали полю первые датасеты (Caltech 101, Pascal VOC) на тысячах-десятках тысяч картинок.
Марвин Мински показал, что перцептрон не учит XOR: это откатило нейросети назад.
Сети ЛеКуна из Bell Labs (~7 слоёв) реально читали индексы и чеки в почте США и банках, но не тянули «кошек и микроволновки».
Нехватка данных - не неудобство, а математическая проблема: высокоёмким моделям нужны данные, чтобы обобщать, а не переобучаться.
22 000 категорий ImageNet выбраны по когнитивной литературе: примерно столько категорий осваивает ребёнок в ранние годы.
Первый год челленджа ImageNet давал ~30% ошибки при человеческих ~3%.
Подпись к изображениям - диссертация Андрея Карпаты, ученика Ли; style transfer - работа Джастина Джонсона, будущего приглашённого лектора курса.
Ранний DALL·E с «авокадовыми креслами» показан как самое начало генерации изображений.
Снимок чёрной дыры сделан с помощью методов CV и вычислительной фотографии.
В курсе assignment 3 - реализация генеративной модели, делающей эмодзи из текстового промпта через денойзинг из чистого шума.
Задачи зрения расслаиваются: классификация → семантическая сегментация (метка на каждый пиксель) → детекция (боксы) → instance-сегментация (маска на каждый экземпляр).
Линейный классификатор ищет гиперплоскость между классами, но пасует, когда данные не делятся прямой.

Инсайты

Сенсор - эволюционный триггер агентности: способность воспринимать превращает организм из объекта среды в её субъекта, и отсюда давление на развитие интеллекта.
Архитектура биологического зрения (локальные поля + иерархия простое→сложное) оказалась не метафорой, а рабочим чертежом для инженерии: нейросети повторили нейробиологию, потому что задача одна.
Зрение и язык требуют разных парадигм: генеративная одномерность языка идеальна для LLM, а физическая, недоопределённая природа зрения делает его отдельной и более «упрямой» задачей.
Скачки в ИИ приходят не от новых идей, а от того, что старую идею наконец кормят достаточным сигналом: AlexNet ≈ неокогнитрон + backprop + данные.
Данные - первоклассный компонент модели, а не сырьё: недооценка данных на десятилетия удержала верные архитектуры в тупике.
Прогресс поля цикличен и неравномерен: «зима ИИ» не остановила исследования, а инкубировала их под спудом упавшего финансирования.
Восприятие - не считывание пикселей, а вывод: мозг достраивает 3D и опирается на контекст сцены, жертвуя точностью ради скорости и устойчивости.
Скорость биологического зрения (150 мс, единицы синаптических прыжков) - свидетельство, что архитектура важнее тактовой частоты: медленная «мокрая» ткань бьёт транзисторы за счёт устройства.
Данные наследуют историю: любой большой ИИ обучен на артефактах человеческой деятельности и потому тащит человеческие предвзятости в свои решения.
Мощность инструмента симметрична последствиям: тот же CV лечит по снимкам и решает судьбу кредита, и граница между пользой и вредом инженерно не определяется.
Многие проблемы ИИ - не инженерные, а человеческие и общественные, поэтому поле по своей природе междисциплинарно.

Цитаты

«Unlocking the mystery of visual intelligence is unlocking the mystery of intelligence», 1:14 Разгадать тайну визуального интеллекта значит разгадать тайну интеллекта

«Without senses, life is metabolism. It's very passive», 4:53 Без чувств жизнь это метаболизм. Очень пассивный

«Once you collect light, life is completely different», 4:47 Стоит начать собирать свет, и жизнь становится совершенно другой

«Humans are especially visual animals», 5:50 Люди особенно зрительные животные

«cameras are not enough for seeing, just like eyes are not enough for seeing», 7:26 камер недостаточно для видения, как и глаз недостаточно для видения

«Language doesn't exist in nature. You cannot point to something and say there's language», 16:12 Язык не существует в природе. Ты не можешь указать на что-то и сказать: вот язык

«recovering 3D information, the entire 3D world from 2D images is the fundamental problem», 14:47 восстановление 3D-мира из 2D-изображений это фундаментальная проблема

«you've got to admire our wetware», 22:34 приходится восхищаться нашим «мокрым железом»

«we tend to be over optimistic of what we can do in a short period of time», 12:12 мы склонны переоценивать то, что успеем за короткий срок

«lack of data is not just an inconvenience. It's actually a mathematical problem», 31:23 нехватка данных это не просто неудобство. Это математическая проблема

«data is part of the first class citizen for machine learning and deep learning», 31:56 данные это полноправный гражданин машинного и глубокого обучения

«something happened in 2012. That was the most exciting year», 34:07 в 2012-м что-то произошло. Это был самый волнующий год

«if you look at AlexNet, it's not that different from Fukushima's Neocognitron 32 years ago», 34:42 если посмотреть на AlexNet, он не так уж отличается от неокогнитрона Фукусимы 32-летней давности

«we're in an AI global warming period», 40:36 мы в периоде глобального потепления ИИ

«with great tools comes with great consequences as well», 42:14 с великими инструментами приходят и великие последствия

«data is an artifact of human activities on Earth and in history», 42:34 данные это артефакт человеческой деятельности на Земле и в истории

«not all AI issues are engineering issues», 43:18 не все проблемы ИИ инженерные

«vision is not just calling out cats and dogs», 37:38 зрение это не только выкрикивание «кошка, собака»

Факты

Курс - CS231N (Stanford, весна 2025), лекторы: профессор Фей-Фей Ли, профессор Изанг Адели и аспирант Зейн.
Кембрийский взрыв: ~540 млн лет назад, всплеск видообразования уложился примерно в 10 млн лет - очень короткий срок по эволюционным меркам.
Первое зрячее животное в изложении Ли - трилобит со светочувствительными клетками.
Больше половины кортикальных клеток человека участвуют в обработке зрения.
Хьюбел и Визель: эксперименты на зрительной коре кошки, 1959; Нобелевская премия по медицине ~20+ лет спустя.
Первая диссертация по CV - Ларри Робертс, 1963; летний проект «решить зрение» в MIT, 1966.
Дэвид Марр - книга о зрении в 1970-х (primal sketch, 2.5D, 3D); умер рано.
«Обобщённые цилиндры» - Родни Брукс и Том Бинфорд (Стэнфорд); Брукс позже основал Roomba.
Скорость категоризации в мозге: дифференциальный сигнал через ~150 мс (Симон Торп, ЭЭГ); опыт с детекцией человека на 10 Гц / 100 мс на кадр (начало 1970-х).
Эффект контекста сцены на распознавание - исследование Ирва Бидермана.
Неокогнитрон - Фукусима (Япония), ~5–7 слоёв, сотни вручную заданных параметров; backpropagation - 1986, Румельхарт, Хинтон и др.; CNN ЛеКуна - 1990-е, Bell Labs, ~7 слоёв, применён в почте и банках США.
ImageNet: 15 млн картинок после чистки из ~миллиарда, 22 000 категорий; челлендж LSVRC - подмножество ~1 млн+ картинок и 1000 классов.
Ошибка первого челленджа ~30% против человеческих ~3%; в 2012 AlexNet (Хинтон с учениками) урезал ошибку почти вдвое.
Turing Award 2018 - Хинтон, Бенджио, ЛеКун; Нобель по физике 2024 - Хинтон совместно с Джоном Хопфилдом.
Лекция читается в лекционном зале NVIDIA в здании Хуанга; график flop-на-доллар GPU резко ускорился после ~2020.

Источники

Hubel & Wiesel - эксперименты по зрительной коре (Нобелевская премия по медицине).
Larry Roberts - первая диссертация по компьютерному зрению (1963).
David Marr - книга о зрении (1970-е), модель primal sketch / 2.5D / 3D.
Generalized Cylinders - Rodney Brooks, Tom Binford.
Neocognitron - Kunihiko Fukushima.
Backpropagation - Rumelhart, Hinton и др. (1986).
CNN / LeNet - Yann LeCun (Bell Labs, 1990-е).
AlexNet - Geoffrey Hinton с учениками (ImageNet 2012).
ImageNet / LSVRC - Fei-Fei Li с лабораторией.
Датасеты Caltech 101, Pascal VOC.
Работы Ирва Бидермана, Симона Торпа.
Диссертация по image captioning - Andrej Karpathy; style transfer - Justin Johnson (гостевой лектор).
Марвин Мински - критика перцептрона (XOR).
DALL·E / DALL·E 2, диффузионные модели, Van Gogh «Звёздная ночь» как пример style transfer.

Итог

Зрение старше человечества на полмиллиарда лет и лежит в основе интеллекта. А современный ИИ выстрелил тогда, когда к правильным архитектурам наконец добавили то, что все недооценивали: данные.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

Безлимит саммари — сколько угодно видео
Главные тезисы и цитаты без воды
Приоритет в очереди обработки
Без рекламы и сторонних блоков

Получить такое же саммари

Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Stanford Online»

Все видео

Стэнфорд CS229 | Машинное обучение | Как создаются большие языковые модели (LLM)

Стэнфорд CS229 | Машинное обучение | Как создаются большие языковые модели (LLM)

Stanford CME295 Трансформеры и LLM | Осень 2025 | Лекция 1 - Трансформер

Stanford CME295 Трансформеры и LLM | Осень 2025 | Лекция 1 - Трансформер

Stanford CS230 | Осень 2025 | Лекция 1: Введение в глубокое обучение

Stanford CS230 | Осень 2025 | Лекция 1: Введение в глубокое обучение