Коротко
Эндрю Ын открывает осенний CS230 (сентябрь 2025) в формате flipped classroom: видео-лекции смотрят дома, аудиторное время уходит на обсуждения. Он излагает «карту» дисциплины — CS-фундамент → machine learning → deep learning → generative AI на трансформерах — и объясняет, почему глубокое обучение победило: есть рецепт обучения очень больших нейросетей, которые «впитывают» данные и дают предсказуемый по scaling laws рост качества. Курс из пяти модулей (основы NN на чистом Python, тюнинг гиперпараметров, дисциплина ведения ML-проектов, свёрточные сети, sequence-модели и трансформер) делает упор на практику, а не на «truth and beauty». Большая часть лекции — взгляд Ына на рынок труда: совет «не учиться кодить» он называет худшим карьерным советом, а ключевой навык будущего — связка CS-фундамента с AI-assisted coding. Он также продаёт философию «move fast and be responsible»: дешёвые quick-and-dirty прототипы в песочнице позволяют пробовать 20 идей и оставлять то, что сработало.
Главный тезис
Глубокое обучение выиграло потому, что масштабирование больших нейросетей на больших данных даёт предсказуемый рост качества, и в эпоху AI-assisted coding самый ценный специалист — тот, кто соединяет понимание CS/ML-фундамента с умением использовать AI-инструменты, а не просто «вайбкодит» промптами.
Ключевые идеи
- 3:00 — прогресс ИИ за 10–15 лет сделан масштабированием: deep learning хорош тем, что «впитывает» большие объёмы данных.
- 3:48 — у традиционных алгоритмов (логрегрессия, деревья) качество выходит на плато с ростом данных; нейросети — нет.
- 4:39 — есть рецепт обучения очень больших сетей, в которые можно «затолкать» много данных ради исключительного качества.
- 6:26 — статья Baidu и потом scaling laws OpenAI показали: прирост качества предсказуем, что и запустило инвестиции в дата-центры.
- 7:25 — слоистая карта: CS → ML → deep learning → generative AI (трансформеры), каждый слой на предыдущем.
- 8:45 — «deep learning» и «нейросети» практически синонимы; «deep learning» просто лучший бренд.
- 10:52 — для многих задач одного промптинга LLM недостаточно, приходится спускаться на слой deep learning.
- 15:45 — обучающих LLM с нуля мало; массовый навык — дообучение (fine-tune) и применение предобученных моделей.
- 22:38 — когда продукт находит product-market fit, счёт за LLM «взлетает», и fine-tune маленьких моделей сгибает кривую затрат назад.
- 26:42 — главное отличие сильных команд — дисциплинированный процесс разработки, дающий 10x по скорости.
- 27:19 — слепое следование хайпу («ИИ нужны данные/GPU») часто не помогает; нужна диагностика под конкретную задачу.
- 38:20 — AI-coding сильнее всего ускоряет быстрые прототипы, а не production-grade софт (где он рискованнее — пример со снесённой БД).
- 44:58 — когда кодить проще, кодить должны больше людей (история перфокарт, COBOL); совет «не учиться кодить» — худший карьерный совет.
- 46:11 — рынок не может найти людей с навыками Gen AI / deep learning, при этом старый «не-AI» скилл-сет 2002 года не в спросе.
- 41:25 — выход ML-системы зависит и от кода, и от данных, которые ты не контролируешь; узнать, что в данных, можно только построив систему.
Почему это важно
Это вводная лекция флагманского курса от Эндрю Ына — фигуры, стоявшей у истоков масштабирования deep learning на GPU (он прямо вспоминает первую GPU-машину, собранную студентом в общаге). Лекция не столько про математику, сколько про рыночное позиционирование навыка: Ын фактически отвечает на тревогу студентов про рост безработицы среди CS-выпускников и говорит, кто выигрывает (те, кто соединил CS-фундамент с AI-coding и Gen-AI-инструментами вроде RAG/fine-tune/agentic), а кто проигрывает (full-stack с замороженным скилл-сетом 2002 года, университеты с устаревшими программами). Упомянуты ключевые игроки экосистемы — OpenAI, Baidu, Anthropic (Claude), Google (Gemini), Meta (Llama), инструменты Claude Code, Cursor, Codex, Gemini CLI, Windsurf — как контекст, в котором выпускник должен уметь работать.
Идеи
- Flipped classroom существует потому, что студенты Stanford и так смотрели лекции онлайн — проще сделать качественные видео, чем читать одно и то же годами.
- Первую GPU-машину Ына для обучения сетей на CUDA собрал студент-бакалавр в общаге — Ian Goodfellow (будущий автор GAN).
- Работа, сделанная в общаге или студенческом жилье, в ретроспективе может иметь огромный эффект — мотивационный посыл студентам.
- Hyperparameters — это «параметры, управляющие параметрами» (learning rate, размер сети).
- Навык тюнинга гиперпараметров буквально определял, уйдёт ли аспирант спать в 3 утра или в 7 утра.
- Structured data = таблицы чисел (Excel, Sheets); unstructured = текст/аудио/картинки/видео — разные типы требуют разных подходов.
- LLM «выросли» как text-in/text-out машины, поэтому для аудио/видео/изображений Ын спускается напрямую к deep learning.
- Прототипирование на Gen AI дёшево («пара долларов за миллион токенов»), но на масштабе счёт «захватывает дух».
- Неопытные команды выбирают, над чем работать, почти случайно — прочитали статью, пошли полгода собирать данные.
- Реальная история: CTO семейного бизнеса купил кучу GPU и отдал их племяннику-студенту со словами «он знает AI».
- Песочница (sandbox) на собственном ноутбуке без чувствительных данных снижает требования к безопасности — можно двигаться быстрее.
- «Если стоимость proof-of-concept низкая, кого волнует, что из 20 в продакшн пойдут 1–2».
- «Move fast and break things» получило плохую репутацию; Ын переформулирует: «move fast and be responsible».
- Самые ответственные команды, что он знает, — одни из самых быстрых: скорость даёт быструю обратную связь и раннее обнаружение проблем.
- Один из коллабораторов утром прислал в Slack, что agentic-кодер сделал ошибку миграции и стёр все записи БД (к счастью, тест на 5 юзеров).
- Аналогия с генерацией картинок: коллаборатор Tommy Nelson знал историю искусств и язвыка искусства — и через Midjourney получал красивые картинки, а Ын мог только «нарисуй симпатичных роботов».
- «Catch them all»: AI-курсы Stanford надо собирать как покемонов — берите несколько.
- CS230 и CS229 спроектированы с малым перекрытием — можно брать вместе; в некоторых годах делали совместные проекты с более высокой планкой.
- Хедж про достаточность данных: иногда 100 точек хватает, иногда «100 миллиардов спустя всё ещё мало» — заранее сказать трудно.
- Для лиц с нуля ~50 000 уникальных лиц — нормальный старт (опыт face recognition).
- Для greenfield-проектов совет один: собрать чуть-чуть данных, обучить модель и по результату калибровать ожидания.
- ИИ-навык даёт «право играть» в чужих доменах: автономные вертолёты, реклама, веб-поиск, e-commerce, топливная эффективность судов, климатическое моделирование, борьба с фродом.
- Борьба с финансовым фродом эмоционально захватывает: каждый час промедления — утечка денег, алгоритмы строят в реальном времени по новым схемам.
- Ын сегодня не нанял бы инженера, не умеющего использовать AI в работе — как не нанял бы человека на перфокартах вместо клавиатуры.
- Реальный кейс найма: выбрал почти-выпускника, владеющего Gen-AI-кодингом, против full-stack с 10-летним опытом, но скилл-сетом 2002 года.
- Безработица свежих CS-выпускников выросла относительно прошлого десятилетия — отсюда тревога студентов.
- Работодатели сами не научились нанимать под Gen AI: если в компании никто не знает Gen AI, как они проведут интервью?
- В курсе планируются симуляционные упражнения «что бы вы сделали в этом сценарии» для тренировки системного принятия решений.
- Ын признаётся, что бормочет («mumbling») с подросткового возраста и просит махать ему, если голос «уходит вниз».
Инсайты
- Преимущество deep learning архитектурно: способность конвертировать дополнительный compute и данные в качество без выхода на плато — вот источник доминирования, а не отдельная «умная» идея.
- Предсказуемость (scaling laws) важнее самого качества: именно она превращает обучение моделей из исследования в инвестиционное решение и оправдывает капзатраты на дата-центры.
- Брендинг влияет на траекторию технологии: переименование «нейросетей» в «deep learning» помогло волне взлететь — нарратив часть инженерной реальности.
- Промптинг — это потолок, а не фундамент: настоящий рычаг качества и стоимости лежит на слое ниже (fine-tune, deep learning), куда большинство не спускается.
- Дешевизна экспериментов меняет стратегию: когда proof-of-concept почти бесплатен, оптимально максимизировать число попыток, а не точность каждой ставки.
- Главный дефицит в ML — не алгоритмы, а дисциплина диагностики: умение выбрать правильное действие важнее знания методов и даёт 10x.
- Неопределённость ML структурна: ты контролируешь код, но не данные и не реакцию пользователей — поэтому единственный способ узнать правду — построить и запустить.
- Скорость и ответственность не противоположны, а взаимоусиливают: быстрый цикл обратной связи — лучший инструмент управления рисками.
- Удешевление навыка повышает спрос на него, а не понижает (эффект Джевонса для кодинга): автоматизация инструмента расширяет, а не схлопывает рынок.
- Ценность мигрирует, а не исчезает: устаревает конкретный скилл-сет, а не профессия — проигрывают те, кто заморозил навыки, а не «программисты вообще».
- Качество результата AI-инструмента упирается в экспертизу пользователя (art history → язык искусства), значит доменное знание становится не лишним, а решающим множителем.
- Универсальность ML-навыка («right to play») делает специалиста горизонтальным ресурсом для всех дисциплин, у которых есть данные.
Цитаты
«who doesn't want learning that is really deep, like it's just a good brand» — 9:04 кто не хочет обучения, которое реально глубокое — это просто хороший бренд
«just prompting LMs, it doesn't cut it» — 10:52 просто промптить языковые модели — этого недостаточно
«his name was Ian Goodfellow» — 5:25 его звали Иэн Гудфеллоу
«if you buy this many GPUs, throw this with compute and this with data added, what would the performance be?» — 6:29 если купишь столько-то GPU, добавишь столько compute и столько данных — какое будет качество?
«I'm not going to do any truth and beauty style» — 18:25 я не буду заниматься стилем «истина и красота»
«to bend the cost curve back down, often a lot of the techniques in deep learning become very relevant» — 22:07 чтобы согнуть кривую затрат обратно вниз, часто очень кстати оказываются техники deep learning
«less experienced teams will often almost pick things at random to work on» — 27:00 менее опытные команды часто выбирают, над чем работать, почти случайно
«my nephew knows AI. I'm giving him this very large budget in GPUs» — 28:05 мой племянник знает AI, я даю ему этот огромный бюджет в GPU
«we just wiped out all of the database records» — 38:41 мы просто снесли все записи базы данных
«move fast and be responsible» — 43:17 двигайся быстро и будь ответственным
«who cares if you have to do 20 of them, and that's the price for finding the one or two things that works really well» — 40:56 какая разница, что придётся сделать 20 — это цена за то, чтобы найти одну-две вещи, которые реально работают
«while you control the code 100%, you don't really know, usually, what's really in the data» — 41:25 хотя код ты контролируешь на 100%, ты обычно не знаешь, что реально в данных
«I think we'll look back on this as some of the worst career advice ever given» — 44:49 думаю, мы будем вспоминать это как один из худших карьерных советов в истории
«when coding becomes easier, more people should do it rather than fewer» — 44:58 когда кодить становится проще, кодить должно больше людей, а не меньше
«who needs programmers anymore?» — 45:37 кому вообще нужны программисты?
«I just won't hire someone that uses a punch card instead of keyboard and terminal» — 47:21 я просто не найму человека, который использует перфокарту вместо клавиатуры и терминала
«I picked the fresh college grad over someone with 10 years of experience» — 48:32 я выбрал свежего выпускника против человека с 10 годами опыта
«please make pretty pictures of robots for me» — 50:30 пожалуйста, сделай мне симпатичных картинок роботов
«I think of AI courses at Stanford that have been like Pokemon. You've got to catch them all» — 58:20 я думаю об AI-курсах Stanford как о покемонах: ты должен поймать их всех
«the barrier to entry to AI to coding is the lowest it's ever been in our lives» — 52:47 барьер входа в AI-кодинг сейчас самый низкий за всю нашу жизнь
Факты
- Лекция читается в сентябре 2025 в Stanford, курс CS230, co-instructor — Kian Katanforoosh (в транскрипте «Kian»).
- Формат курса — flipped classroom; аудиторное время обычно ~20 минут вместо полного слота расписания.
- Первую GPU-машину Ына для обучения нейросетей на CUDA собрал в общаге студент-бакалавр Ian Goodfellow (~15 лет назад).
- Прогресс в ИИ через масштабирование Ын датирует последними 10–15 годами.
- Предсказуемость прироста качества показала статья из Baidu, идею scaling laws популяризировала OpenAI.
- Курс состоит из пяти модулей: основы NN/DL на чистом Python; тюнинг/гиперпараметры; стратегии ведения ML-проектов; свёрточные сети (vision); sequence-модели и трансформер.
- Точки входа в AI в Stanford: CS129 (самый лёгкий on-ramp, прикладной), CS229 (математический, теоретический, интенсивный), CS230 (прикладной, только deep learning).
- CS229 покрывает много техник: supervised/unsupervised, decision trees, boosting, k-means; CS230 идёт вглубь только по deep learning.
- Стоимость Gen-AI на прототипировании — «пара долларов за миллион токенов»; счета упомянуты как «$20–$100 в месяц» на старте и «breathtaking» на масштабе (точные цифры Ын называть отказался).
- Для face recognition с нуля ориентир — около 50 000 уникальных лиц (по личному опыту).
- Названы инструменты AI-coding: Claude Code, Cursor, Gemini CLI, Codex, Windsurf; LLM — ChatGPT, Claude, Gemini, Meta Llama.
- Gen-AI-инструменты, которые Ын ищет у кандидатов: RAG, векторные БД, evals/error analysis, guardrails, knowledge graphs, multimodal LLM, fine-tune, agentic workflows.
- Безработица свежих CS-выпускников «тикнула вверх» относительно прошлого десятилетия (Ын подаёт как наблюдение, не точную статистику).
- Реальный кейс найма: выбран почти-выпускник с Gen-AI-кодингом против full-stack-инженера с 10 годами опыта, но навыками «2002 года».
- Картинки для курса Generative AI for Everyone генерировал через Midjourney коллаборатор Tommy Nelson, знавший историю искусств.
Источники
- Люди: Andrew Ng (спикер), Kian Katanforoosh (co-instructor), Ian Goodfellow, Tommy Nelson, Percy Liang (упомянут как возможный автор курса по обучению фронтир-LLM).
- Организации/модели: OpenAI (scaling laws), Baidu (предсказуемость scaling), Anthropic / Claude, Google / Gemini, Meta / Llama, ChatGPT.
- Инструменты: Claude Code, Cursor, Gemini CLI, Codex, Windsurf, Midjourney, TensorFlow, PyTorch.
- Курсы Stanford: CS129, CS229, CS230, CS111; онлайн-курс Generative AI for Everyone.
- Концепции/статьи: scaling laws (OpenAI), исследование предсказуемости из Baidu, архитектура Transformer.
Рекомендации
- Учите CS-фундамент: понимание того, как работают компьютеры и ИИ, кратно повышает отдачу от AI-assisted coding по сравнению с «вайбкодингом».
- Учитесь кодить несмотря на автоматизацию — и распространите это среди друзей с других факультетов; совет «не учиться кодить» Ын считает вредным.
- Берите несколько AI-курсов («catch them all»); CS230 и CS229 можно проходить вместе.
- Осваивайте прикладной Gen-AI-тулинг: RAG, fine-tune, evals, guardrails, agentic workflows.
- Стройте quick-and-dirty прототипы в песочнице и пробуйте много идей — «move fast and be responsible».
- Для нового домена без аналогов: соберите немного данных, обучите модель и калибруйте по результату, а не следуйте хайпу про «нужно больше данных/GPU».
Итог
Победа deep learning — это победа масштабируемого и предсказуемого рецепта, а победа специалиста сегодня — в умении соединить понимание фундамента с AI-инструментами и дисциплиной быстрого ответственного эксперимента.