Промптинг 101 | Кодим с Claude

Anthropic31 июля 2025367 0348 6579 мин чтения23 мая, 12:59

Коротко

Двое инженеров Anthropic (Christian и Hannah) разбирают анатомию хорошего промпта на сквозном демо: анализ заполненного шведского отчёта о ДТП плюс нарисованный от руки эскиз — Claude должен сказать, кто виноват. Они итеративно прокачивают промпт по 10-блочной структуре (task context, tone, фоновые данные, примеры, шаги, guidelines, output format, прайс-филл, extended thinking), показывая, как каждая итерация убирает галлюцинации и расширяет качество ответа. Главный практический приём — отделять статичные данные (системный промпт) от динамичных (user-промпт), оборачивать секции в XML-теги, давать few-shot-примеры с лейбленными человеком ответами и заставлять модель проходить задачу пошагово. Прайс-филл (prefill) ассистента и extended thinking подаются как костыли для форматирования и для «места, где думать». Температура 0 и большой max_tokens — стандарт для воспроизводимости в таких задачах.

Главный тезис

Prompt engineering — это не магия формулировок, а итеративный инженерный процесс: дать модели контекст задачи, роль, данные в XML-структуре, примеры с человеческими лейблами, пошаговую инструкцию, guidelines и точный формат вывода — и каждая из этих надстроек закрывает конкретный класс ошибок, который виден в предыдущей версии.

Ключевые идеи

  • 0:00 — обзор позиционируется как «101»: базовые техники, без которых не работает ничего сложнее однострочного запроса.
  • 1:24 — демо построено на конкретном продакшн-сценарии: шведский отчёт о ДТП плюс рисованный эскиз, цель — определить виновника.
  • 2:15 — вся итерация ведётся в Anthropic Console, чтобы наглядно сравнивать версии промпта.
  • 2:23 — для воспроизводимости задаётся temperature = 0 и большой бюджет токенов, чтобы оценивать качество, а не дисперсию.
  • 4:28 — первый слой любого промпта — task context: кто Claude в этой задаче и что от него хотят, до подачи данных.
  • 5:31tone/role управляет регистром ответа: «ты ассистент страховой компании» даёт другой выход, чем безличный запрос.
  • 6:53 — Claude нужно дать background о структуре формы (что значит чекбокс №1, как нумеруются машины), иначе он не считает чекбоксы корректно.
  • 10:14 — для разделения секций предпочтительны XML-теги, а не markdown; Claude обучен опираться на них как на структурные якоря.
  • 10:53 — статичные данные (описание формы, роль, guidelines) идут в system prompt, динамичные (конкретный отчёт, эскиз) — в user-сообщение.
  • 13:48 — изображения подаются как base64, и для них тоже работает few-shot — пример картинки плюс правильный анализ повышают качество разбора новой картинки.
  • 14:14 — few-shot примеры строятся через feedback loop с разметчиками-людьми: размеченные кейсы возвращаются в промпт как эталоны.
  • 15:45 — большая задача разбивается на явные шаги («сначала прочитай форму, потом эскиз, потом сопоставь, потом вынеси вердикт»).
  • 16:04 — нужны guidelines типа «отвечай, только если уверен» и «обосновывай факты ссылкой на конкретный чекбокс формы», чтобы убрать галлюцинации.
  • 21:44 — итоговый ответ запирается в отдельный XML-тег (<final_assessment>), чтобы downstream-код легко парсил результат.
  • 22:24prefill: в роль ассистента дописывают открывающий символ ({, <final_assessment>), и Claude вынужден продолжить в нужном формате — дешёвая альтернатива structured output.
  • 23:35extended thinking в Claude 3.7 и 4 — это легитимный костыль промпт-инженера: место, где модель явно размышляет перед ответом.

Почему это важно

Это официальный гайд от Anthropic, и его прагматика — продать не магию, а воспроизводимый процесс: при росте сложности приложений LLM-команды теряют недели на угадывание формулировок, а Anthropic закрепляет за собой роль вендора, у которого этот процесс уже стандартизирован (Console, XML-конвенция, prefill, extended thinking). Выигрывают команды, которые внедряют размеченные few-shot датасеты и system/user разделение; проигрывают те, кто запихивает всё в один user-промпт и удивляется галлюцинациям. Упомянутые игроки — сама Anthropic, её Console, модели Claude 3.7 и Claude 4 с гибридным reasoning.

Идеи

  • Демо специально берёт шведский бланк ДТП — внешний, незнакомый формат, чтобы было видно, как Claude фейлится без background-контекста.
  • Эскиз ДТП от руки — намеренно «грязные» данные, мультимодальный кейс, который ломает наивный промпт.
  • В первой версии промпта Claude не понимает даже, что это автоавария — путает со «ski accident», пока не дашь явный task context.
  • Tone-context влияет не только на стиль, но и на то, какие факты модель считает релевантными (страховой ассистент будет искать вину, нейтральный — описывать).
  • XML-теги работают как «крючки», к которым модель привыкла во время обучения — это инфраструктурное преимущество, а не косметика.
  • Markdown допустим, но XML предпочтительнее, потому что не конфликтует с контентом (контент тоже бывает в markdown).
  • Разделение system/user — не стилистика, а архитектурное решение: системный промпт кэшируется, дешевле, и в нём живёт всё, что не меняется от запроса к запросу.
  • В корпоративном кейсе few-shot датасет может быть несколько сотен размеченных примеров с «серой зоной», и Claude учится калибровать неопределённость по ним.
  • Пример картинки можно подать в base64 прямо внутри few-shot — и Claude переносит навык анализа на новую картинку.
  • Step-by-step инструкция — это chain of thought, навязанный извне: ты не надеешься, что модель додумается рассуждать поэтапно, ты её заставляешь.
  • Guideline «отвечай только если уверен» работает против sycophancy и галлюцинаций — Claude буквально откажется выносить вердикт без оснований.
  • Guideline «обоснуй вывод конкретным элементом формы» создаёт трассируемость: ответ становится аудируемым.
  • Output format с финальным XML-тегом отделяет «рабочие записи» Claude от машиночитаемого результата — для интеграции с SQL/БД.
  • Prefill — почти бесплатный способ принудить JSON-вывод: впихиваешь { в ассистентское сообщение, и модель уже не может начать с прозы.
  • Extended thinking — это легализованный scratchpad: думать в <thinking> теперь часть API, а не хак.
  • Anthropic явно подсвечивает: для prompt engineering нужны более интеллектуальные модели (Claude 4), потому что они лучше следуют сложным инструкциям.
  • Размер max_tokens должен быть с запасом — иначе вывод обрежется на середине рассуждений и итоговый XML-тег не успеет родиться.
  • Tip без слов: Console показывают не для красоты — авторы намекают, что итерировать без UI с side-by-side diff болезненно.
  • Демо построено как прогрессия V1 → V5, и каждая версия закрывает дефект предыдущей — это самая ценная часть видео, методологическая.
  • Промпт-инжиниринг описывается как experience-driven: нет универсальной формулы, есть процесс наблюдения за ошибками.
  • Картинки-примеры в base64 — приём, который масштабируется на любые мультимодальные задачи (медицинские снимки, схемы, чертежи).
  • Few-shot работает даже когда в реальности формы заполнены неаккуратно — модель учится игнорировать шум по разметке.
  • Финальная мысль: prompt engineering выигрывает не от длины промпта, а от архитектурной чистоты блоков.

Инсайты

  • LLM-приложение — это не «вопрос → ответ», а многокомпонентный конвейер промптов, где каждая часть отвечает за свой класс ошибок; качество растёт не от красивых формулировок, а от устранения конкретных дефектов в выводе.
  • Контракт промпта удобнее декомпозировать по принципу «что меняется vs что не меняется»: всё стабильное (роль, описание данных, guidelines) уходит в system prompt и кэшируется, всё переменное — в user, и это даёт и скорость, и дешевизну, и предсказуемость.
  • XML-разметка как лингвистический интерфейс — обучение модели на структурированных данных делает XML-теги фактически зарезервированными словами, которым модель доверяет больше, чем естественноязыковым маркерам.
  • Few-shot c человеческими лейблами — это форма трансфера экспертизы доменного специалиста в промпт: ты не переучиваешь модель, ты транслируешь ей правила оценки через примеры спорных кейсов.
  • Принудительная декомпозиция задачи на шаги в промпте — способ симулировать рабочий регламент аналитика, а не полагаться на эмерджентное рассуждение модели.
  • Guidelines работают не как фильтр, а как калибровка уверенности: они меняют распределение того, на чём модель готова делать утверждения.
  • Prefill — это пример того, как физика декодирования (модель продолжает токены, не редактирует их назад) превращается в инструмент управления форматом: дешевле schema-инжиниринга и надёжнее, чем regex-парсинг.
  • Extended thinking легализует то, что промпт-инженеры годами делали через <scratchpad>-хаки: вычислительный бюджет как явная переменная промпта, отдельно от вывода.
  • Чем интеллектуальнее модель, тем больше отдача от длинного, структурированного промпта — на слабых моделях те же инструкции просто игнорируются, и инвестиция в prompt engineering окупается только на frontier-классе.

Фреймворки

10-блочная анатомия промпта Anthropic (по слайду, в порядке применения):

  1. Task context — кто Claude и какую задачу решает.
  2. Tone context — стиль, регистр, аудитория.
  3. Background data / documents — описание структуры данных (что такое чекбокс №1 в форме).
  4. Detailed task description and rules — что именно сделать.
  5. Examples — few-shot, с XML-обёрткой.
  6. Conversation history — релевантный контекст диалога.
  7. The immediate task / request — конкретный запрос здесь и сейчас.
  8. Thinking step-by-step / take a deep breath — chain of thought принудительно.
  9. Output formatting — точная схема ответа, XML-теги.
  10. Prefilled response — затравка ответа от лица ассистента.

Цитаты

«Prompting 101» — 0:00 Промптинг 101

«Let's explain the scenario» — 1:24 Давайте объясним сценарий

«美しく輝くエントロピックコンソール» — 2:15 Прекрасно сияющая Anthropic Console

«温度を0に設定し、トークンの最大予算も大きく設定しています» — 2:23 Выставляем температуру в 0 и большой бюджет токенов

«Prompt engineering engineering is very much an experience of experience» — 3:24 Промпт-инжиниринг — это во многом опыт

«Markdown is Cloud in a very convenient way, but XML Tags are what you can see» — 10:18 Markdown Claude удобен, но XML-теги — то, что нужно

«Clouds in a message that you send in a message to make it easier» — 4:16 Сообщение Claude нужно структурировать, чтобы ему было проще

«事前入力レスポンスと呼んでいるものです» — 22:24 Это то, что мы называем prefill response

«json シリアル化可能な構造化された json 出力が必要な場合があります» — 22:29 Иногда нужен JSON-сериализуемый структурированный JSON-вывод

«拡張思考はプロンプトエンジニアリングの支えとして活用できる» — 23:35 Extended thinking можно использовать как опору промпт-инжиниринга

«思考タグとスクラッチパッドを追加します» — 23:45 Добавляем thinking-теги и scratchpad

«特にクラウド4はどちらもハイブリッドな推論モデルであり拡張思考を利用できる» — 23:27 Особенно Claude 4 — гибридная reasoning-модель с extended thinking

«事実に基づく主張をする際にはフォームで見た内容を参照するように指示する» — 16:45 Указывайте Claude ссылаться на содержимое формы при фактических утверждениях

«自信がある場合にのみ回答するように促します» — 16:42 Просим отвечать только при наличии уверенности

«車両Aはチェックボックス1にチェックが入っていて車両Bは12にチェックが入っている» — 8:05 У машины A отмечен чекбокс 1, у машины B — чекбокс 12

Факты

  • Демо построено на шведском отчёте о ДТП — реальная форма страхового кейса.
  • Помимо формы Claude получает рисованный от руки эскиз сцены аварии.
  • Все эксперименты идут в Anthropic Console с temperature = 0 и большим max_tokens.
  • В первой версии промпта Claude путает автоаварию со «ski accident» — конкретный пример провала без task context.
  • Структура промпта из слайда насчитывает 10 компонентов (task context, tone, background, task, examples, history, request, thinking, output format, prefill).
  • Изображения для few-shot передаются как base64-encoded data.
  • В корпоративных приложениях few-shot датасет может содержать сотни размеченных кейсов «серой зоны».
  • Презентация явно ссылается на Claude 3.7 и Claude 4 как на гибридные reasoning-модели с extended thinking.
  • Prefill реализуется через подстановку открывающего символа/тега в assistant message в API-вызове.
  • Презентующие — Christian (ведёт демо) и Hannah (отвечает за слайды и теорию).
  • Итоговый вердикт Claude оборачивается в отдельный XML-тег вида <final_assessment> — для парсинга downstream.

Источники

  • Anthropic Console — основной инструмент для итерации промптов в видео.
  • Claude 3.7 и Claude 4 — модели с extended thinking, упомянуты как рекомендуемые для серьёзного промпт-инжиниринга.
  • Документация Anthropic по prompt engineering — упомянута как «всё это онлайн, не забудьте посмотреть».

Рекомендации

  • Сделайте фото слайда с 10-блочной структурой промпта — авторы прямо предлагают это как чек-лист.
  • Разделяйте system prompt (статика) и user prompt (динамика) с самого начала проекта.
  • Используйте XML-теги, а не markdown, для разметки секций промпта.
  • Стройте few-shot датасет с человеческой разметкой и закладывайте туда «серые» кейсы.
  • Включайте extended thinking на Claude 3.7/4 для задач, где нужна цепочка рассуждений.
  • Используйте prefill, когда нужен строгий формат вывода (JSON, XML).

Итог

Хороший промпт — это не текст, а архитектура из десяти блоков, где каждый закрывает свой класс ошибок, а Claude становится тем сильнее, чем чище разделены роли, данные, примеры, шаги и формат.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «Anthropic»

Все видео