Коротко
Greg и его гость Amir разбирают новую open-source модель GLM 5.2 (от z.ai): как поднять её в Cursor или Codex через API z.ai либо OpenRouter, и зачем вообще локальные/открытые модели тем, кто строит стартап. GLM 5.2 даёт контекст в 1 млн токенов и 81 балл на Terminal Bench, отставая от Opus 4.8 всего на 4 пункта, при разнице в цене почти впятеро. Центральная механика — model shining / fusion: дорогая модель (Opus) думает и планирует, дешёвая открытая (GLM) исполняет, а нехватку у GLM зрения обходят, скармливая ему описание скриншота от Opus. Сквозной аргумент: токены сейчас субсидируются как поездки раннего Uber, субсидия кончится — поэтому имеет смысл заранее вложиться в железо и научиться гонять открытые модели. При этом Amir честно признаётся, что в бенчмарках сам не разбирается и судит «на ощупь».
Главный тезис
Не максимизируй токены — минимизируй их и максимизируй выход: комбинируй дорогую облачную модель для мышления и дешёвую открытую GLM 5.2 для исполнения, пока действует токен-субсидия, которая скоро испарится.
Ключевые идеи
- 0:06 — GLM 5.2 называют «GPT-моментом для локального AI»: открытая модель впервые догоняет закрытые по качеству.
- 4:02 — GLM 5.2 даёт контекст 1 млн токенов и 81 на Terminal Bench 2.1, на 4 пункта ниже Opus 4.8.
- 4:37 — на части бенчмарков GLM показывает 62% против 69% у Opus — разрыв есть, но небольшой.
- 4:47 — ценность GLM в том, что он open source: можно гонять локально или в облаке через открытых провайдеров.
- 5:26 — оба ведущих признают, что бенчмарки им мало что говорят, решают «на ощупь», собрав и попробовав.
- 6:51 — установка: берёшь API-ключ на z.ai, вставляешь в поле OpenAI в Cursor, переопределяешь endpoint, добавляешь кастомную модель GLM 5.2.
- 7:57 — Codex поддерживает открытые модели: создаёшь профиль через ключ OpenRouter и переключаешься на GLM 5.2 в CLI.
- 10:19 — главный плюс локальной модели — она не жжёт токены: купил машину один раз и гоняй задачи.
- 11:18 — GLM 5.2 очень прожорлив: обычный потребительский компьютер его, скорее всего, не потянет.
- 11:50 — на 50k input / 85k output токенов GLM стоит 44 цента против 2,38 $ у Opus — почти в 5 раз дешевле при сопоставимом выходе.
- 13:46 — токены сейчас субсидируются как поездки раннего Uber: подсаживают на workflow, потом поднимут цены.
- 15:11 — у GLM 5.2 нет распознавания изображений; обход — Opus описывает скриншот словами, GLM по описанию правит вёрстку.
- 16:11 — fusion-подход — это «свободная торговля против протекционизма»: каждая модель делает то, в чём сильна.
- 18:49 — когда не-инженеры жгут Opus 4.8 на форматирование письма — это проблема governance, тут и нужен model shining.
- 21:40 — итоговый принцип: минимизировать токены, максимизировать выход, а не наоборот.
Почему это важно
Идёт сдвиг от «жги токены любой ценой» к экономике на токенах, и говорят об этом не теоретики, а практики, строящие стартапы малой командой. В выигрыше — model-agnostic харнессы (Cursor, Codex, OpenRouter), которые позволяют миксовать модели и снимать сливки с разницы цен; открытые провайдеры (z.ai с GLM, OpenRouter) откусывают рынок у закрытых Anthropic и OpenAI, чьи токены дорожают и упираются в лимиты. Amir прямо говорит, что компании уже отказываются от прямого доступа к API облачных моделей из-за стоимости, а Satya Nadella называет «человеческий капитал + токены» новым ключевым фактором. Для соло-разработчика и небольшой команды, не желающей нанимать 100–500 человек, арбитраж между моделями превращается в реальное конкурентное преимущество.
Идеи
- z.ai — реальный автор GLM 5.2; в транскрипте дубляж путает имя (Mozilla, Gelion, Gemini) — это whisper-ошибки.
- Установка в Cursor сводится к подмене ключа и endpoint OpenAI на ключ и endpoint z.ai.
- Тот же фокус работает через OpenRouter: один ключ открывает доступ к множеству открытых моделей.
- OpenRouter работает на кредитах: закинул 20 $ — и пробуешь, без покупки железа.
- Amir сам тестировал GLM 5.2 не локально, а в облаке через OpenRouter — потому что модель слишком тяжёлая.
- GLM 5.2 силён именно на фронтенде и задачах исполнения; бэкенд Amir ещё толком не гонял.
- В одном промпте GLM собрал карусель из картинок и bento-сетку фич — раньше открытые модели так аккуратно инструкции не держали.
- Скачок с 5.1 на 5.2 заметный, хотя 5.1 Amir сам не щупал — судит по Twitter и разговорам.
- Карусель и редизайн hero-секции Amir делал прямо в продакшн-приложении, изначально собранном в Opus 4.8.
- Логика «купи машину один раз»: железо за 2000/5000/10 000 $ окупается отказом от платы за токены.
- Покупка железа сейчас — ставка на будущее: к GLM 5.3/5.5 «компьютер» уже окуплен, а будущие модели будут дороже.
- Цена памяти не падает, цена токенов тоже — значит «зафиксироваться» на локальном железе пока можно — разумно.
- Когда вышла Fable, Amir уперся в лимит в первый же день — лимиты бьют всё быстрее.
- Параллель с Uber: подсадить на workflow, а потом, ближе к IPO, убрать субсидию и поднять цены.
- Аналогия свободной торговли: Канада меняет кленовый сироп на флоридские апельсины — каждый делает что умеет.
- Cursor может в любой момент подключить GLM 5.2 как провайдера и дать пользователю экономию из коробки.
- Обход слепоты GLM: Opus читает скриншот, описывает hero-секцию словами, GLM по описанию вносит правки.
- Governance-боль: маркетолог Джон форматирует письмо на Opus 4.8 с «глубоким мышлением» — не та модель под задачу.
- Компании уже отписываются от прямого API облачных моделей — слишком дорого, ищут эффективность.
- Бизнесы за год прошли путь «AI-adoption, жги токены» → «мы тратим слишком много, как оптимизировать».
- Через год компании могут начать ставить свои машины и гонять локальные модели ради экономии.
- Предельный сценарий Amir: план — Opus, ревью — одна модель, исполнение — GLM 5.2, финальное ревью — Composer 2.5 или Codex.
- Devil's advocate-ответ: если тебе хватает OpenRouter — оставайся на OpenRouter, локальное железо не обязательно.
- Покупать Mac Studio/Mac Mini под это не нужно — твиттерный хайп про «купи дорогое железо» необязателен.
- Критерий оправданности трат: потратил 200 $ — вернул 1000 $, тогда жги сколько хочешь.
Инсайты
- Архитектура хайпа open-source-моделей повторяет венчурную субсидию: качество сейчас дешёвое, потому что кто-то оплачивает разницу — это окно, а не норма.
- Преимущество смещается от «у кого лучшая модель» к «кто умеет оркестрировать разные модели под подзадачи» — компетенция, а не доступ.
- Бенчмарки как валюта доверия девальвируются: даже продвинутые практики принимают решения эмпирически, а не по таблицам.
- Open-source здесь — не про бесплатность, а про контроль над стоимостью и местом исполнения (локально vs облако).
- Экономическая ценность смещается от софта к железу: вложение в compute — хедж против дорожающих токенов.
- «Token-maxi» как идентичность инвертируется: зрелость — это минимизация токенов при максимизации выхода.
- Мультимодальные дыры открытой модели закрываются не апгрейдом модели, а конвейером из нескольких моделей.
- Управление расходами на токены становится дисциплиной governance, а не личным выбором инженера.
- Соло-разработчику легче оправдать расточительность по токенам, чем команде — экономика масштабируется нелинейно.
- Стоимость инференса для бизнеса теперь складка из человеческого капитала и токенов одновременно, а не отдельная статья.
Цитаты
«het het GPT moment voor lokale AI is» — 0:06 это GPT-момент для локального AI
«Benchmarks zijn geweldig. Persoonlijk ben ik er geen expert in» — 3:47 Бенчмарки — это здорово. Лично я в них не эксперт
«Ik ben niet slim genoeg om te begrijpen hoe deze benchmark zich tot elkaar verhouden» — 5:48 Я недостаточно умён, чтобы понять, как эти бенчмарки соотносятся друг с другом
«Ik wil het meest token, kostenefficiënte en prestatiegerichte resultaat» — 6:36 Мне нужен максимально токен- и затрато-эффективный, производительный результат
«kost het ons 44 cent om een output te bereiken die bijna gelijk is aan die van Opus 4.8» — 11:50 нам стоит 44 цента получить выход почти как у Opus 4.8
«Vijf keer zo groot is een aanzienlijk verschil» — 12:08 В пять раз — это существенная разница
«Toen Uber net begon, subsidiërden ze ritten en zorgden ze ervoor dat je verslaafd raakte aan de app» — 13:46 Когда Uber только начинал, они субсидировали поездки и подсаживали тебя на приложение
«de prijs van geheugen niet daalt» — 14:14 цена памяти не падает
«het is bijna als vrijhandel versus protectionisme» — 16:11 это почти как свободная торговля против протекционизма
«je kunt het dure model trainen om het plan te doordenken en vervolgens dezelfde kwaliteit te bereiken, maar dan voor een veel betaalbaardere prijs» — 15:44 можно заставить дорогую модель продумать план и достичь того же качества, но за куда более доступную цену
«menselijk kapitaal plus tokengebruik nu een grote factor is in wat ze doen» — 17:41 человеческий капитал плюс расход токенов — теперь большой фактор в том, что они делают
«En dat is een governance probleem, toch?» — 18:49 И это проблема governance, верно?
«je zou niet moeten token maximaliseren, je zou juist zoveel mogelijk moeten token minimaliseren en de output maximaliseren» — 21:40 нужно не максимизировать токены, а наоборот минимизировать их и максимизировать выход
«ik geef gewoon geld uit op gevoel» — 21:19 я просто трачу деньги на ощущениях
«ik heb 200 dollar uitgegeven en 1000 dollar teruggekregen» — 21:48 я потратил 200 долларов и вернул 1000
«Anders loopt de subsidie vroeg of laat toch op» — 21:56 Иначе субсидия рано или поздно всё равно кончится
Факты
- GLM 5.2 выпущена компанией z.ai (в дубляже ошибочно «Mozilla» / «Gelion» / «Gemini» — whisper-артефакты).
- Контекстное окно GLM 5.2 — 1 млн токенов.
- GLM 5.2 набирает 81 балл на Terminal Bench 2.1, на 4 пункта ниже Opus 4.8.
- На отдельном бенчмарке у GLM 62,1% против 69,2% у Opus.
- Расчёт стоимости: при ~50 000 input и ~85 000 output токенов GLM — 44 цента, Opus — 2,38 $ (Amir также называет «4,80 $»; цифры свои он подаёт как прикидку, не как точную).
- Разница в цене — почти 5×.
- GLM 5.2 не поддерживает распознавание изображений (по словам Amir).
- У GLM 5.2 нет мультимодальности для анализа картинок — слабое место на момент записи.
- Amir гонял GLM 5.2 в облаке через OpenRouter, а не локально — из-за ресурсоёмкости.
- Установка возможна через z.ai API в Cursor либо через OpenRouter в Codex; Codex поддерживает open-source модели.
- Минимальный порог входа в OpenRouter — пополнить на 20 $.
- Amir упоминает, что уперся в лимит в первый же день после выхода Fable.
- Satya Nadella (Microsoft) сказал, что «человеческий капитал + расход токенов» — крупный фактор их работы (по словам Amir).
- Тестовое приложение Amir изначально собрал в Opus 4.8, потом дорабатывал в GLM 5.2.
- Amir прямо признаёт, что не разбирается в бенчмарках и судит эмпирически.
Источники
- GLM 5.2 — открытая модель от z.ai
- OpenRouter — провайдер/агрегатор открытых моделей, концепция fusion/composite-моделей
- Cursor, Codex — model-agnostic харнессы для запуска моделей
- Opus 4.8 — закрытая модель сравнения (Anthropic)
- Прочие модели, упомянутые в контексте оркестрации: Composer 2.5, Codex 5.5, Fable
- Terminal Bench 2.1 — бенчмарк, на котором сравнивают модели
- Amir — гость выпуска, практик по локальным/открытым моделям (ссылки на него обещаны в описании)
- Аналогии: Uber (венчурная субсидия), Satya Nadella / Microsoft
Рекомендации
- Начни с простого: подними GLM 5.2 через OpenRouter + Cursor, не покупая дорогое железо.
- Закинь 20 $ в OpenRouter и поэкспериментируй, прежде чем вкладываться в Mac Studio.
- Используй model shining: дорогую модель — на план и зрение, дешёвую открытую — на исполнение.
- Если строишь долго и всерьёз — подумай заранее вложиться в локальное железо, пока токены дорожают.
- Не суди по бенчмаркам — собери, прогони на своей задаче и реши на ощущениях.
- Меряй оправданность простым ROI: вложил X токенов — получил кратный выход, иначе минимизируй.
Итог
Пока токены субсидируются, выигрывает не тот, у кого самая мощная модель, а тот, кто умеет дёшево сшить дорогую «голову» и дешёвые открытые «руки» вроде GLM 5.2.