Коротко
Фей-Фей Ли открывает курс CS231N экскурсом на 540 миллионов лет назад: зрение началось не с человека, а с трилобита, у которого в кембрийском взрыве появились светочувствительные клетки. Именно сенсоры превратили пассивный метаболизм в активную жизнь и запустили эволюцию интеллекта. Дальше она прослеживает две параллельные линии: компьютерное зрение (от Хьюбела и Визеля через тезис Ларри Робертса и Дэвида Марра к ImageNet) и нейросети (от перцептрона через неокогнитрон Фукусимы и backpropagation к AlexNet 2012 года) - они сошлись в глубоком обучении. Центральная мысль лекции: прорыв 2012-го дали не сами архитектуры, а признание данных полноправным гражданином машинного обучения - ImageNet с 15 миллионами картинок сделал высокоёмкие модели обучаемыми. Зрение принципиально отличается от языка: язык генерируется мозгом и одномерен, а зрение решает некорректно поставленную задачу восстановления 3D-мира из 2D-проекции. Вторая половина лекции, у профессора Адели, размечает программу курса: от линейных классификаторов и CNN до трансформеров, диффузионных моделей, vision-language и воплощённых агентов.
Главный тезис
Современный взрыв ИИ держится на трёх сходящихся силах: вычисления, алгоритмы и данные. Сдвинули компьютерное зрение с мёртвой точки в 2012 году именно недооценённые данные, ImageNet, а не архитектуры.
Ключевые идеи
- 1:07 - зрение это не часть интеллекта, а краеугольный камень: разгадать визуальный интеллект значит разгадать интеллект вообще.
- 3:20 - история зрения началась 540 млн лет назад, и кембрийский взрыв видов лучше всего объясняется появлением глаз, а не климатом или химией океана.
- 4:53 - без сенсоров жизнь это пассивный метаболизм; свет превращает организм в активного участника среды, которую он хочет менять и в которой хочет выжить.
- 8:04 - Хьюбел и Визель электродами в зрительной коре кошки открыли две вещи: у нейронов есть локальные рецептивные поля и зрительный путь иерархичен.
- 10:00 - ранние нейроны ловят ориентированные края, дальше сигнал идёт в детекторы углов и объектов; эта иерархия напрямую предсказала архитектуру нейросетей.
- 11:02 - первой диссертацией по CV считают работу Ларри Робертса (1963) о восприятии формы; в 1966-м MIT-профессор нанял студентов «решить зрение за лето».
- 14:47 - зрение это некорректно поставленная задача: восстановить 3D-мир из 2D-проекции на сетчатке математически недоопределено, природа решила это несколькими глазами и триангуляцией.
- 16:12 - язык не существует в природе, он генерируется мозгом и одномерен-последователен; поэтому LLM так мощны. Зрение же отражает физический мир и решает другие задачи.
- 22:43 - человеческий мозг выдаёт категориальный сигнал уже через 150 мс (Симон Торп, ЭЭГ); это всего несколько «прыжков» между нейронами.
- 4:26 - зрение развило нервную систему; больше половины кортикальных клеток человека заняты обработкой зрения.
- 27:20 - неокогнитрон Фукусимы вручную повторил зрительный путь (свёртки + пулинг), но каждый из сотен параметров задавался руками.
- 28:43 - прорыв 1986-го это backpropagation: целевая функция коррекции ошибки распространяет её назад по сети через цепное правило, убрав ручную настройку.
- 32:24 - лаборатория Ли собрала ImageNet: 15 млн размеченных картинок по 22 000 категорий (по числу категорий, что человек осваивает в раннем детстве).
- 34:07 - в 2012-м AlexNet Хинтона урезал ошибку почти вдвое; архитектурно он мало отличался от неокогнитрона, но добавились backprop и данные.
- 40:36 - из «зимы ИИ» поле вышло в «глобальное потепление ИИ», кривая flop-на-доллар у GPU NVIDIA взлетела, когда глубокое обучение начало их разгонять.
Почему это важно
Лекция задаёт канон происхождения современного ИИ, и в этом каноне ImageNet и момент 2012-го стоят в центре: что удобно, ведь рассказывает его сама создательница ImageNet. Выигрывают те, кто понял роль данных: NVIDIA (лекция читается в её зале, в здании Хуанга), Хинтон, ЛеКун и Бенджио с премией Тьюринга 2018-го и Нобелем Хинтона по физике 2024-го. Проигрывают те, кто десятилетиями полировал архитектуры, недооценивая данные: из-за этого сети ЛеКуна упирались в потолок на распознавании цифр. Для студента из медицины, права или бизнеса посыл прямой: зрение проникло в радиологию, в снимок чёрной дыры, в экологию, а вместе с силой пришли предвзятость данных и вопрос, стоит ли отдавать ИИ решения о кредите или работе.
Идеи
- До кембрийского взрыва жизнь была «расслабленной»: плавала в воде, суши и наземных животных ещё не было.
- Первый глаз трилобита это не линза с сетчаткой, а буквально дырка-обскура, собирающая свет.
- Зрение и осязание - два древнейших чувства животных.
- Леонардо да Винчи изучал камеру-обскуру, но мысль о проекции через отверстие есть ещё у мыслителей древней Греции и Китая.
- Камера так же недостаточна для видения, как глаз: это лишь аппарат; суть в том, как рождается визуальный интеллект.
- Хьюбел и Визель получили Нобелевку по медицине спустя ~20 с лишним лет после работы 1959 года.
- Дэвид Марр предложил лестницу представлений: primal sketch → 2.5D-эскиз (разделение глубин) → полное 3D как «святой Грааль».
- Люди сами восстанавливают 3D без геометрической точности: я знаю форму примерно, а не с точностью до миллиметра.
- Эксперимент Бидермана: одинаково спроецированные на сетчатку велосипеды распознаются по-разному, если картинку «расшатать»: контекст сцены влияет на восприятие объекта.
- В опыте 1970-х люди безошибочно находят человека в видео при 10 Гц (100 мс на кадр), не зная заранее ни кадра, ни как объект выглядит.
- В мозге есть специализированные зоны под лица, места и части тела (открытия нейрофизиологов MIT 1990–2000-х).
- Родни Брукс, автор «обобщённых цилиндров» в Стэнфорде, стал одним из великих робототехников и основателем Roomba, и в день лекции читал доклад тут же на кампусе.
- Алгоритм детекции лиц из диссертации Ли попал в цифровые камеры через пять лет как автофокус по лицу.
- Интернет + цифровые камеры дали полю первые датасеты (Caltech 101, Pascal VOC) на тысячах-десятках тысяч картинок.
- Марвин Мински показал, что перцептрон не учит XOR: это откатило нейросети назад.
- Сети ЛеКуна из Bell Labs (~7 слоёв) реально читали индексы и чеки в почте США и банках, но не тянули «кошек и микроволновки».
- Нехватка данных - не неудобство, а математическая проблема: высокоёмким моделям нужны данные, чтобы обобщать, а не переобучаться.
- 22 000 категорий ImageNet выбраны по когнитивной литературе: примерно столько категорий осваивает ребёнок в ранние годы.
- Первый год челленджа ImageNet давал ~30% ошибки при человеческих ~3%.
- Подпись к изображениям - диссертация Андрея Карпаты, ученика Ли; style transfer - работа Джастина Джонсона, будущего приглашённого лектора курса.
- Ранний DALL·E с «авокадовыми креслами» показан как самое начало генерации изображений.
- Снимок чёрной дыры сделан с помощью методов CV и вычислительной фотографии.
- В курсе assignment 3 - реализация генеративной модели, делающей эмодзи из текстового промпта через денойзинг из чистого шума.
- Задачи зрения расслаиваются: классификация → семантическая сегментация (метка на каждый пиксель) → детекция (боксы) → instance-сегментация (маска на каждый экземпляр).
- Линейный классификатор ищет гиперплоскость между классами, но пасует, когда данные не делятся прямой.
Инсайты
- Сенсор - эволюционный триггер агентности: способность воспринимать превращает организм из объекта среды в её субъекта, и отсюда давление на развитие интеллекта.
- Архитектура биологического зрения (локальные поля + иерархия простое→сложное) оказалась не метафорой, а рабочим чертежом для инженерии: нейросети повторили нейробиологию, потому что задача одна.
- Зрение и язык требуют разных парадигм: генеративная одномерность языка идеальна для LLM, а физическая, недоопределённая природа зрения делает его отдельной и более «упрямой» задачей.
- Скачки в ИИ приходят не от новых идей, а от того, что старую идею наконец кормят достаточным сигналом: AlexNet ≈ неокогнитрон + backprop + данные.
- Данные - первоклассный компонент модели, а не сырьё: недооценка данных на десятилетия удержала верные архитектуры в тупике.
- Прогресс поля цикличен и неравномерен: «зима ИИ» не остановила исследования, а инкубировала их под спудом упавшего финансирования.
- Восприятие - не считывание пикселей, а вывод: мозг достраивает 3D и опирается на контекст сцены, жертвуя точностью ради скорости и устойчивости.
- Скорость биологического зрения (150 мс, единицы синаптических прыжков) - свидетельство, что архитектура важнее тактовой частоты: медленная «мокрая» ткань бьёт транзисторы за счёт устройства.
- Данные наследуют историю: любой большой ИИ обучен на артефактах человеческой деятельности и потому тащит человеческие предвзятости в свои решения.
- Мощность инструмента симметрична последствиям: тот же CV лечит по снимкам и решает судьбу кредита, и граница между пользой и вредом инженерно не определяется.
- Многие проблемы ИИ - не инженерные, а человеческие и общественные, поэтому поле по своей природе междисциплинарно.
Цитаты
«Unlocking the mystery of visual intelligence is unlocking the mystery of intelligence», 1:14 Разгадать тайну визуального интеллекта значит разгадать тайну интеллекта
«Without senses, life is metabolism. It's very passive», 4:53 Без чувств жизнь это метаболизм. Очень пассивный
«Once you collect light, life is completely different», 4:47 Стоит начать собирать свет, и жизнь становится совершенно другой
«Humans are especially visual animals», 5:50 Люди особенно зрительные животные
«cameras are not enough for seeing, just like eyes are not enough for seeing», 7:26 камер недостаточно для видения, как и глаз недостаточно для видения
«Language doesn't exist in nature. You cannot point to something and say there's language», 16:12 Язык не существует в природе. Ты не можешь указать на что-то и сказать: вот язык
«recovering 3D information, the entire 3D world from 2D images is the fundamental problem», 14:47 восстановление 3D-мира из 2D-изображений это фундаментальная проблема
«you've got to admire our wetware», 22:34 приходится восхищаться нашим «мокрым железом»
«we tend to be over optimistic of what we can do in a short period of time», 12:12 мы склонны переоценивать то, что успеем за короткий срок
«lack of data is not just an inconvenience. It's actually a mathematical problem», 31:23 нехватка данных это не просто неудобство. Это математическая проблема
«data is part of the first class citizen for machine learning and deep learning», 31:56 данные это полноправный гражданин машинного и глубокого обучения
«something happened in 2012. That was the most exciting year», 34:07 в 2012-м что-то произошло. Это был самый волнующий год
«if you look at AlexNet, it's not that different from Fukushima's Neocognitron 32 years ago», 34:42 если посмотреть на AlexNet, он не так уж отличается от неокогнитрона Фукусимы 32-летней давности
«we're in an AI global warming period», 40:36 мы в периоде глобального потепления ИИ
«with great tools comes with great consequences as well», 42:14 с великими инструментами приходят и великие последствия
«data is an artifact of human activities on Earth and in history», 42:34 данные это артефакт человеческой деятельности на Земле и в истории
«not all AI issues are engineering issues», 43:18 не все проблемы ИИ инженерные
«vision is not just calling out cats and dogs», 37:38 зрение это не только выкрикивание «кошка, собака»
Факты
- Курс - CS231N (Stanford, весна 2025), лекторы: профессор Фей-Фей Ли, профессор Изанг Адели и аспирант Зейн.
- Кембрийский взрыв: ~540 млн лет назад, всплеск видообразования уложился примерно в 10 млн лет - очень короткий срок по эволюционным меркам.
- Первое зрячее животное в изложении Ли - трилобит со светочувствительными клетками.
- Больше половины кортикальных клеток человека участвуют в обработке зрения.
- Хьюбел и Визель: эксперименты на зрительной коре кошки, 1959; Нобелевская премия по медицине ~20+ лет спустя.
- Первая диссертация по CV - Ларри Робертс, 1963; летний проект «решить зрение» в MIT, 1966.
- Дэвид Марр - книга о зрении в 1970-х (primal sketch, 2.5D, 3D); умер рано.
- «Обобщённые цилиндры» - Родни Брукс и Том Бинфорд (Стэнфорд); Брукс позже основал Roomba.
- Скорость категоризации в мозге: дифференциальный сигнал через ~150 мс (Симон Торп, ЭЭГ); опыт с детекцией человека на 10 Гц / 100 мс на кадр (начало 1970-х).
- Эффект контекста сцены на распознавание - исследование Ирва Бидермана.
- Неокогнитрон - Фукусима (Япония), ~5–7 слоёв, сотни вручную заданных параметров; backpropagation - 1986, Румельхарт, Хинтон и др.; CNN ЛеКуна - 1990-е, Bell Labs, ~7 слоёв, применён в почте и банках США.
- ImageNet: 15 млн картинок после чистки из ~миллиарда, 22 000 категорий; челлендж LSVRC - подмножество ~1 млн+ картинок и 1000 классов.
- Ошибка первого челленджа ~30% против человеческих ~3%; в 2012 AlexNet (Хинтон с учениками) урезал ошибку почти вдвое.
- Turing Award 2018 - Хинтон, Бенджио, ЛеКун; Нобель по физике 2024 - Хинтон совместно с Джоном Хопфилдом.
- Лекция читается в лекционном зале NVIDIA в здании Хуанга; график flop-на-доллар GPU резко ускорился после ~2020.
Источники
- Hubel & Wiesel - эксперименты по зрительной коре (Нобелевская премия по медицине).
- Larry Roberts - первая диссертация по компьютерному зрению (1963).
- David Marr - книга о зрении (1970-е), модель primal sketch / 2.5D / 3D.
- Generalized Cylinders - Rodney Brooks, Tom Binford.
- Neocognitron - Kunihiko Fukushima.
- Backpropagation - Rumelhart, Hinton и др. (1986).
- CNN / LeNet - Yann LeCun (Bell Labs, 1990-е).
- AlexNet - Geoffrey Hinton с учениками (ImageNet 2012).
- ImageNet / LSVRC - Fei-Fei Li с лабораторией.
- Датасеты Caltech 101, Pascal VOC.
- Работы Ирва Бидермана, Симона Торпа.
- Диссертация по image captioning - Andrej Karpathy; style transfer - Justin Johnson (гостевой лектор).
- Марвин Мински - критика перцептрона (XOR).
- DALL·E / DALL·E 2, диффузионные модели, Van Gogh «Звёздная ночь» как пример style transfer.
Итог
Зрение старше человечества на полмиллиарда лет и лежит в основе интеллекта. А современный ИИ выстрелил тогда, когда к правильным архитектурам наконец добавили то, что все недооценивали: данные.