Коротко
Лекция CS230 о том, что происходит «за пределами» самой LLM: как выжать максимум из базовой модели, не трогая её веса. Спикер (из команды Workera) проходит по всей лестнице оптимизации — промптинг, few-shot, chaining, RAG, агентные воркфлоу, evals и мульти-агентные системы, — и почти на каждом шаге доказывает, что инженерия вокруг модели важнее самой модели. Главный практический совет: избегать файнтюнинга, потому что пока вы дообучаете модель, выходит следующая и бьёт ваш дотюненный вариант. Отдельно разбирается, как мерить работу агента через объективные/субъективные и компонентные/end-to-end evals, включая LLM-as-judge с рубриками. В финале — прогноз: рост упрётся в плато scaling laws, а вытащит нас архитектурный поиск, мультимодальность и смешение методов обучения по образцу того, как учится младенец.
Главный тезис
Базовая LLM сама по себе ограничена и плохо управляема — реальную ценность создаёт слой инженерии вокруг неё (промпты, RAG, агентные воркфлоу, evals), и осваивать надо широту техник, а не глубину одной, потому что период полураспада конкретного навыка ничтожен.
Ключевые идеи
- 3:49 — у ванильной модели набор структурных дыр: нехватка доменных знаний, устаревшие данные, плохая управляемость, отсутствие источников.
- 5:30 — модель не знает свежих трендов, а переобучать с нуля каждые пару месяцев нереально; пример с «covfefe», который рекомендательная система не смогла переварить.
- 7:56 — даже Grok и OpenAI, лучшие по финансированию команды, не справляются с контролем своих моделей; история с расистским ботом Microsoft Tay, снятым через 16 часов.
- 13:03 — внимание плохо работает на больших контекстах: бенчмарк «иголка в стоге сена» проверяет, найдёт ли модель один факт внутри огромного корпуса.
- 12:34 — потолок контекста даже лучших моделей сотни тысяч токенов, 200k ≈ две книги, что мало для видео и тяжёлых данных.
- 14:58 — спор вокруг RAG: при бесконечном компьюте RAG не нужен, но латентность и сорсинг оставляют его актуальным, как поисковую выдачу вместо чтения всего веба.
- 19:00 — исследование BCG-консультантов: есть зубчатая граница (jagged frontier), внутри которой AI резко помогает, а за ней люди «засыпают за рулём» и работают хуже.
- 20:13 — два стиля работы с AI: кентавры делегируют большую задачу целиком, киборги работают в плотном back-and-forth; обученная промптингу группа всегда обходила необученную.
- 24:36 — chain of thought (думай пошагово, не пропускай шаги) измеримо улучшает результат и популярен у стартапов, контролирующих свои модели.
- 32:15 — chaining разбивает сложный промпт на отдельные звенья: это не столько про качество, сколько про дебаг и контроль — видно, какое звено слабое.
- 28:52 — few-shot выравнивает модель под субъективную задачу (тон отзыва), и это быстрее файнтюнинга: правишь промпт, а не веса.
- 31:34 — в голосовом продукте Workera модель теряется после восьми ходов, лечится «главами» разговора и вставкой саммари.
- 2:09 — файнтюнинг дорог, переобучается на узких данных и теряет общую полезность; пример Slack-файнтюна, который отвечал «I shall work on that in the morning» вместо текста.
- 54:09 — Andrew Ng ввёл термин «agentic workflows», чтобы не называть агентом и один промпт, и сложную мульти-агентную систему.
- 59:55 — агентный софт проектируется как менеджер с командой ролей (дизайнер → маркетолог → аналитик), а не как монолит/микросервисы.
- 59:07 — сдвиг от детерминированной к fuzzy-инженерии: свобода ввода пользователя резко повышает риск поломок и атак, нужны guardrails и human-in-the-loop.
- 1:12:19 — MCP заменяет ручное обучение модели каждому API на агент-to-агент общение, где агент сам выясняет требования эндпоинта.
- 1:30:38 — без LLM-трейсов отладить систему почти невозможно; вопрос про их наличие стоит задавать стартапу на собеседовании.
- 1:34:52 — смысл мульти-агентности в параллелизме и переиспользовании агентов разными командами, а не в простом увеличении числа шагов.
- 1:44:32 — за плато scaling laws нас потащит архитектурный поиск: следующий «трансформер» может срезать потребность в компьюте и энергии в 10 раз.
Почему это важно
Это карта поля для всех, кто строит LLM-продукты внутри стартапа или энтерпрайза прямо сейчас. Выигрывают команды, которые вкладываются в инженерный слой вокруг модели и в evals, а не в дообучение: они мгновенно подхватывают следующую базовую модель простой заменой в коде. Проигрывают те, кто файнтюнит под узкую задачу и отстаёт с каждым релизом. Названы конкретные игроки и их роли: Andrew Ng (термин agentic workflows), Anthropic (MCP, понятие resources), Workera (рабочие кейсы памяти, evals, голосовых ассессментов), McKinsey (кейс кредитных меморандумов), Ilya Sutskever (вопрос про плато). Для энтерпрайзов со 100k сотрудников это означает «кризис редизайна воркфлоу» — технология готова, но переучивание людей растянется на годы.
Идеи
- «Covfefe» как иллюстрация: рекомендательная система ломается не от сложности, а от слова, которого нет в обучении.
- Распределение реального мира отличается от трейна — та же проблема, что показали GAN'ы, теперь у LLM.
- Тяжёлая модель, из которой задача использует 2% возможностей — повод для прунинга и квантизации, а не для гордости.
- NPS целой индустрии может быть смещён, и «негативный» отзыв там на самом деле «нейтральный» — модель надо выравнивать под бизнес, а не под общечеловеческую норму.
- Knowledge management — большой энтерпрайз-рынок именно потому, что ванильная LLM не может читать весь ваш диск за один запрос.
- RAG защищается аналогией с поиском: вы же не перечитываете весь веб на каждый запрос, есть алгоритмы ранжирования.
- Любой метод из лекции может устареть за три года из-за удвоения компьюта — это произносится прямо во время обучения этим методам.
- «Промпт-инженер» как профессия — выдумка; это навык, который должен быть у каждого, не отдельная карьера.
- «Act like XYZ» работает, хотя звучит наивно; репозиторий awesome-prompts на GitHub — готовая библиотека рабочих шаблонов.
- У OpenAI почти наверняка есть скрытый системный промпт и подгрузка «memories» о пользователе из БД — но это не мешает добавить свой шаблон поверх.
- Few-shot — это фактически датасет, который вы не выносите отдельно, а кладёте прямо в промпт.
- Chaining даёт промежуточные выходы для ревью: можно увидеть, что аутлайн хороший, а перевод в письмо — плохой, и точечно чинить третий промпт.
- За chaining платишь латентностью — иногда длинная цепочка неприемлема.
- HyDE: сгенерировать фейковый галлюцинированный документ из запроса и искать по нему, потому что короткий запрос не похож на длинные документы в базе.
- Чанкинг хранит и эмбеддинг всего документа, и векторы по главам — для точного сорсинга в больших файлах.
- Память агента делится на working/archival: имя — в быстрый доступ, день рождения — в медленную долгую память, ради скорости и стоимости.
- LLM отлично читают документацию API: дай JSON — он сам разберёт формат get-запроса.
- Лектор против «человеческого лица» у AI-продуктов: это джимик, скорее пугает, чем вовлекает, и скоро исчезнет.
- Стоимость экспериментов падает, поэтому код стоит выбрасывать смелее — плюс к скорости, минус к качеству.
- Кейс McKinsey: люди в процессе не меняются, меняется сам процесс — Gen AI режет время кредитного меморандума на 20–60%.
- Самое трудное даже при готовой технологии — переучить людей; на масштаб организации уйдёт 10–20 лет.
- Агент-to-агент коммуникация в мульти-агентной системе технически и есть MCP: соседний агент трактуется как инструмент.
- HyDE и chunking показаны как два из множества ответвлений RAG-исследований 2020–2025 — лектор намеренно не углубляется.
- Мультимодальность даёт перенос: «лучше пишешь про кота, если знаешь, как кот звучит и выглядит», и кульминация — робототехника.
- Аналогия младенца: meta-learning в ДНК = претрейн, родители «хорошо/плохо» = supervised, падения = reward, наблюдение за другими = unsupervised.
- Человеческое тело ограничивает: копировать только мозг — значит упускать оптимизации по компьюту и энергии за пределами нейронных связей.
- Гипотеза, что у людей нет backpropagation, только forward propagation — направление живых исследований.
Инсайты
- Обучение на human feedback и борьба за «нейтральность» создают структурную трудность контроля: даже богатейшие лаборатории не могут гарантировать поведение модели.
- Узкое место LLM — не объём знаний, а адресность: найти и удержать нужный факт в большом контексте труднее, чем сгенерировать ответ.
- Внешняя инженерия побеждает модификацию весов, когда базовые модели быстро устаревают: всё, что фиксирует вас на конкретной версии модели, — это технический долг.
- Ценность декомпозиции не в качестве ответа, а в наблюдаемости: разбивая монолитный промпт, вы покупаете возможность измерять и чинить по частям.
- Промпт-инженерия как навык поднимает не потолок, а пол: обученная группа стабильно обходит необученную при том же инструменте.
- Граница полезности AI неровная, и главный риск — не там, где AI плох, а там, где человек перестаёт его проверять, доверившись.
- Переход к fuzzy-софту смещает инженерную задачу с «написать правильную логику» на «спроектировать guardrails вокруг неопределённости».
- Оценка качества (evals) — отдельная инженерная дисциплина: её надо раскладывать по осям объективное/субъективное и компонентное/end-to-end, иначе не понять, где именно ломается.
- Абстракции вроде MCP побеждают не за счёт новых возможностей, а за счёт масштабируемости: убрать ручную интеграцию важнее, чем добавить функцию.
- Архитектура памяти отражает компромисс латентность/стоимость, а не «умность»: не каждое знание должно быть быстрым.
- Прогресс LLM, вероятно, будет рваным: плато scaling laws пробивается дискретными архитектурными прорывами, а не плавным ростом.
- Узкое место внедрения — не технология, а организационная инерция: переписать должностные инструкции и стимулы людей дольше, чем построить агента.
Фреймворки
Две оси улучшения LLM. Горизонтальная — менять саму базовую модель (3.5 → 4 → 4o → 5). Вертикальная — инженерить вокруг модели (промпт, RAG, агент, мульти-агент). Лекция — про вертикальную ось.
Лестница оптимизации (по порядку применения). 1) Промпт-инженерия (роль, chain of thought, few-shot, chaining). 2) Файнтюнинг — только если исчерпан промптинг и нужна повторяемая высокая точность. 3) RAG — для свежести, сорсинга и больших контекстов. 4) Агентные воркфлоу. 5) Мульти-агентные системы.
Три уровня автономии агента. Наименее автономный — захардкожены шаги. Полу-автономный — захардкожены инструменты, но не шаги. Наиболее автономный — агент сам выбирает шаги и может создавать инструменты (доступ к редактору кода, веб-поиску, вычислениям).
Оси evals. Объективное (можно проверить Python-кодом, напр. совпадение order ID) vs субъективное (тон, вежливость — human rating или LLM-judge). Компонентное (по каждому тулу/промпту) vs end-to-end (удовлетворённость пользователя). Количественное (% успешных апдейтов, латентность) vs качественное (error analysis: галлюцинации, mismatch тона).
Виды LLM-judge. Pairwise (какое из двух саммари лучше), single-answer grading (оценка 1–5), reference-guided pairwise с рубрикой; можно усиливать few-shot примерами оценок.
Этапы построения агента для задачи. Сесть с исполнителем-человеком на день-два → декомпозировать задачи → разметить каждый шаг (one-shot LLM / RAG / tool / memory) → собрать воркфлоу → навесить трейсы и evals.
Цитаты
«we're going one level beyond into what would it look like if you were building agenting AI systems at work» — 0:44 мы поднимаемся на уровень выше: как это выглядит, если строить агентные AI-системы на работе
«even those two teams, Grok and OpenAI, which are probably the best-funded team with a lot of talent, are not doing a great job at controlling their LLMs» — 9:01 даже эти две команды, Grok и OpenAI, при всём финансировании и таланте не справляются с контролем своих LLM
«200 000 tokens is roughly two books» — 12:34 200 000 токенов — это примерно две книги
«in theory, if we have infinite compute, then RAG is useless» — 15:08 в теории, при бесконечном компьюте RAG бесполезен
«I'm not a fan of fine tuning, and I talk a lot about that» — 2:09 я не фанат файнтюнинга и много об этом говорю
«by the time you're done fine-tuning your model, the next model is out and it's actually beating your fine-tuned version» — 42:29 пока вы дотюнили модель, выходит следующая и бьёт ваш дотюненный вариант
«I shall work on that in the morning» — 43:49 я займусь этим утром
«it's a very common interview question by the way» — 44:58 кстати, это очень частый вопрос на собеседовании
«calling everything an agent doesn't do it justice» — 54:42 называть всё подряд агентом — нечестно по отношению к сути
«Fuzzy engineering is truly hard» — 59:07 fuzzy-инженерия по-настоящему трудна
«It's more complicated than people make it seem on Twitter» — 59:03 это сложнее, чем кажется по твиттеру
«if they don't have LLM traces, it is pretty hard to debug an LLM system» — 1:30:43 если у них нет LLM-трейсов, отладить LLM-систему почти невозможно
«the half-life of skill is so low» — 1:49:28 период полураспада навыка крайне мал
«whoever discovered transformers had a tremendous impact on the direction of AI» — 1:45:29 тот, кто открыл трансформеры, колоссально повлиял на направление AI
«you're better at writing about a cat if you know what a cat sounds like» — 1:46:26 ты лучше пишешь про кота, если знаешь, как кот звучит
Факты
- Исследование зубчатой границы (jagged frontier), кентавров и киборгов проведено на консультантах BCG с участием Wharton/UPenn и Harvard Business School; группы: без AI, с GPT-4, и с GPT-4 + обучение промптингу.
- Microsoft в 2016 запустил Twitter-бота Tay, который быстро стал расистским; бот сняли через 16 часов.
- Твит Сэма Альтмана про лево/правый уклон LLM — ноябрь (прошлый, по словам спикера); публичная перепалка с Илоном Маском о Grok vs OpenAI.
- Потолок контекстного окна лучших моделей — сотни тысяч токенов, до ~200k; 200k ≈ две книги.
- Бенчмарк needle in a haystack: в большой текст (например, Библию) вставляют факт вроде «Arun and Max are having coffee at Blue Bottle» и проверяют, найдёт ли модель ответ.
- Chain of thought популяризован статьёй 2023 года (ссылка в слайдах).
- Кейс файнтюнинга на Slack — от Ross Lazarewicz, примерно сентябрь 2023; дотюненная модель отвечала как человек, а не выполняла инструкции.
- Команда Workera использует платформу PromptFoo для автоматизации тестов промптов (прогон одного промпта на 5 LLM, таблицы, LLM-judge).
- MCP (Model Context Protocol) введён Anthropic; Anthropic также вводит понятие resources (данные вроде CRM, к которым агент делает lookup).
- Кейс McKinsey (по словам спикера — прошлогодний): кредитный меморандум в финансовом институте занимает 1–4 недели; релейшнс-менеджер собирает данные из 15+ источников, кредитный аналитик пишет меморандум 20+ часов; Gen AI агенты режут время на 20–60%.
- В голосовом продукте Workera модель «теряется» после восьми ходов диалога.
- Ilya Sutskever, сооснователь OpenAI, поднял вопрос о плато прогресса LLM; ощущение в сообществе — последняя версия GPT не дала ожидаемого скачка качества, хотя упростила использование.
- Гипотеза из исследований мозга: у человека, вероятно, нет backpropagation, только forward propagation (правдивость спикер не утверждает как факт).
Источники
- Andrew Ng — термин «agentic AI workflows».
- Anthropic — статья про MCP (ссылка в слайдах), понятие resources.
- Исследование jagged frontier / centaurs & cyborgs (BCG + Wharton/UPenn + Harvard Business School).
- Статья про chain of thought (2023).
- Ross Lazarewicz — кейс Slack-файнтюнинга (сентябрь 2023).
- PromptFoo — платформа тестирования промптов.
- Репозиторий awesome prompt templates на GitHub.
- HyDE — Hypothetical Document Embeddings (исследовательская статья).
- Обзорная survey-статья по RAG (ссылка в слайдах).
- Isaac Asimov, «Foundation» — аналогия про влияние отдельных людей на будущее.
- Workera — рабочие кейсы (ассессменты, память, evals, голосовые вопросы).
- Упомянутые модели: GPT-3.5 Turbo, GPT-4, GPT-4o, GPT-5, Grok, Llama.
Рекомендации
- Избегать файнтюнинга, пока не исчерпаны промпт-инженерия, RAG и агентные методы.
- Читать чужие промпты (репозиторий awesome prompt templates) — там много продуманных шаблонов.
- На собеседовании в AI-стартап спрашивать, есть ли у них LLM-трейсы.
- В начале работы получить hands-on опыт ручного ревью выходов — это даёт интуицию, что чинить.
- Строя продукт, сначала разметить, что можно сделать детерминированно, а где нужна fuzzy-логика с guardrails.
- Делать ставку на широту техник, а не на глубину одной: когда понадобится — «спринтуешь» и доучиваешь конкретику.
Итог
Базовая LLM — это сырьё; ценность куётся в инженерном слое вокруг неё, и выигрывает тот, кто держит широту техник и умеет их измерять, а не тот, кто намертво дотюнивает модель под вчерашнюю задачу.