Коротко
В пятницу правительство США отправило Anthropic письмо. К вечеру самую мощную модель на планете, Fable 5, отключили для всех: без предупреждения, без права на апелляцию. Для Грега это повод переосмыслить, на чьих серверах живёт его бизнес. Вывод простой: фронтир-модели гениальны, но ты их не владеешь, а арендуешь, и аренду могут отозвать письмом, сменой цены или пунктом лицензии, который ты не читал. Локальные модели, которые за последние полгода дозрели до «достаточно хороших» для 80% задач, работают офлайн, бесплатно после покупки железа и без слежки, это тот слой стека, который никто не выключит. Дальше практический разбор: с чего начинать (рантайм, потом модель), как маппить размер модели на железо, четыре главные open-модели (Qwen, DeepSeek, Gemma, Llama), квантизация и подключение агента. И пять стартап-идей, которые существуют только потому, что интеллект теперь крутится на твоём столе даром.
Главный тезис
Не строй всю свою жизнь на том, что может исчезнуть от одного письма: владей частью своего стека, держи «генератор в гараже» в виде локальной модели как страховку.
Ключевые идеи
- 0:10: Fable 5 отключили за один вечер после письма правительства: без предупреждения, без апелляции, для всех сразу.
- 1:37: общая слабость всех фронтир-моделей в том, что ты их арендуешь, а не владеешь, и аренду отзывают политикой, ценой или нарушением условий.
- 2:08: облако останется умнейшим инструментом и будет сильнее локального; речь не про «облако плохое», а про то, что нужно владеть частью стека.
- 2:41: аналогия с электросетью: сидишь на грид, пока есть свет, но устойчивые держат генератор на случай урагана; локальная модель это он и есть.
- 3:00: перелом случился ~полгода назад: сегодня модель на игровой GPU или приличном Mac закрывает около 80% задач, для которых люди лезут в ChatGPT или Claude.
- 3:58: локальная модель это файл, который скачал один раз, дальше работает без интернета, без API-ключа и без оплаты за токены.
- 4:40: приватность это не про личный комфорт, а ключ к продажам в healthcare, legal, finance, которым закон запрещает слать данные в чужой API.
- 5:28: после покупки железа нулевая маржинальная стоимость: гоняй модель 24/7 месяц, счёт только за электричество, и это меняет экономику целого класса продуктов.
- 5:44: модель на диске работает, даже если компания-создатель исчезла, интернета нет, а правительство против: в самолёте, в бункере, где угодно.
- 7:41: правильный порядок: сначала рантайм (Ollama или LM Studio), потом уже охота за моделью; все делают наоборот.
- 8:41: размер в миллиардах параметров маппится на железо: 4B на что угодно, 12B, свит-спот на 16 ГБ, 27–35B нужен хороший Mac или GPU.
- 13:12: квантизация сжимает модель как JPEG: Q4 примерно вдвое режет память при минимальной потере качества, и так серверная модель едет на ноутбуке.
- 14:43: настоящий разблок не в чате с моделью, а в наведении агента (Hermes) на локальную модель: работает офлайн, помнит всё, пишет себе скиллы.
- 16:09: локально контекстное окно платится памятью, поэтому держи сессии узкими, иначе машина захлебнётся и покажется, что локалка слабая.
- 16:52: маленькая модель с веб-поиском, доступом к файлам и запуском кода бьёт гиганта без инструментов: модель это движок, инструменты это колёса.
- 17:46: гоняй локалку и облако бок о бок неделю, чтобы наработать инстинкт, что и где запускать; это и есть новый навык.
Почему это важно
Событие задело массовый нерв: бан Fable 5 попал в мейнстрим-новости, и каждая серьёзная компания теперь спрашивает, что будет с её AI-воркфлоу, если провайдера отрежут. Грег видит в этом сдвиг спроса на локальные модели на годы вперёд, и рынок, куда облачные конкуренты физически не зайдут: регулируемые индустрии (медицина, право, финансы) с деньгами и данными, которые нельзя слать в чужой API. Игроки на сцене: Anthropic (чью модель отключили), Alibaba с Qwen, Google с Gemma, Meta с Llama, DeepSeek и NVIDIA с боксом DGX Spark. Выигрывают те, кто владеет слоем, который нельзя выключить; проигрывают бизнесы, целиком построенные на арендованном интеллекте.
Идеи
- Локалка как «генератор в гараже»: не замена сети, а страховка на случай, когда сеть падает.
- Разрыв между бесплатным-локальным и дорогим-облачным закрылся быстрее, чем ждал сам автор.
- Приватность продаётся как фича: «ничего из того, что вы нам дадите, не касается интернета» на лендинге.
- Тебе не нужен фронтир-интеллект для большинства задач, нужен «достаточно хороший», приватный, бесплатный и всегда включённый.
- Стол превращается в мини-дата-центр: бокс на 128 ГБ крутится 24/7, коннектишься к нему с телефона.
- Подбор правильной модели под правильную задачу становится отдельным навыком.
- Non-technical людям начинать с LM Studio (интерфейс, браузер моделей), потому что терминал пугает.
- Qwen 3 обгоняет модели прошлого поколения вчетверо большего размера: «бьёт выше своего веса».
- У reasoning-моделей вроде DeepSeek нормально думать 10–30 секунд перед ответом, это не поломка.
- Gemma настолько мала, что версия влезает в 16 ГБ и на телефон; то, что Google отдаёт её даром, автор называет безумием.
- Совет Google: прямо сейчас выкатить новую Gemma и воспользоваться моментом.
- Llama, дефолт «когда сомневаешься»: огромное коммьюнити, куча файнтюнов и туториалов, работает почти везде.
- Квантизация, трюк, о котором почти не говорят, но именно он заставляет железо делать вдвое больше.
- Локальная модель иногда «забывает» свои инструменты, известный баг на момент записи (июнь 2026), автор сам ещё разбирается.
- Air-gapped вариант: бизнесы, которым нельзя быть онлайн вообще (оборонка, паранойя про утечки), готовы платить.
- Офлайн-AI для мест без интернета: корабли, самолёты, сельские клиники, зоны бедствий, рынок, который облако не обслужит в принципе.
- Не сама индустрия чувствительна, а конкретная операция внутри неё, это и есть ниша.
- «Resilience as a service»: fallback-слой, который включается, когда облачная модель исчезает; продаёшь страховку от того, что случилось с Fable 5.
- Клонировать любой популярный облачный AI-продукт (заметки, саммари встреч, анализ документов) в локальной версии с питчем приватности.
- Лучший сценарий: не «или-или», а облако делает одно, локалка другое.
- Люди на X делают безумные вещи локально, вкладывая в машины по $5–20K.
Инсайты
- Владение вычислением, новый вид резилентности: устойчивость приходит не от лучшего инструмента, а от инструмента, который у тебя не отнять.
- Регуляторный барьер приватности, не издержка, а ров: там, где облако юридически не может войти, локалка получает монопольный рынок.
- Обнуление маржинальной стоимости смещает продукты от «плати за каждый запрос» к «купил железо, гоняй безлимитно», что переписывает целые бизнес-модели.
- Зрелость технологии измеряется не пиком возможностей, а тем, когда «достаточно хорошо» становится дефолтом для рутины.
- Ценность сдвигается с обладания моделью на оркестрацию: знать, что где запускать, важнее, чем иметь самую умную модель.
- Инструменты компенсируют интеллект: обвязка (поиск, файлы, код) сокращает разрыв в способностях быстрее, чем рост размера модели.
- Ограничение ресурса меняет дисциплину работы: платная память за контекст заставляет проектировать узкие сессии, а не сваливать всё в один тред.
- Централизация frontier-моделей создаёт системный риск единой точки отказа, одно письмо кладёт слой, на котором стоят тысячи бизнесов.
- Кризис доступа, лучший драйвер обучения: бан сработал как вынужденный толчок освоить то, что откладывали.
- Устойчивость строится заранее: полис покупается до урагана, а не во время.
Фреймворки
Маппинг размера модели на железо (главное, что нужно понять из эпизода):
- 4B, работает почти на всём: ноут с 8 ГБ, даже многие телефоны.
- 12B, свит-спот для машины с 16 ГБ RAM, «где должно жить большинство».
- 27–35B, нужен хороший Mac с 30+ ГБ или дискретный GPU; тут начинает ощущаться по-настоящему способным.
- 70B и выше, серьёзное железо: максималка Mac Studio или бокс вроде NVIDIA DGX Spark со 128 ГБ unified memory.
Порядок обучения локальным моделям:
- Начать с рантайма (Ollama / LM Studio).
- Подобрать модель под железо (миллиарды параметров → RAM).
- Знать, какая модель под какую задачу (Qwen, DeepSeek, Gemma, Llama).
- Понять квантизацию (Q4/Q5, уровень сжатия).
- Подключить агента (Hermes) к локальной модели.
Что отделяет профи от туристов: контекст = память, дай модели инструменты, помни, что приватность - это киллер-фича, гоняй локалку и облако бок о бок неделю.
Цитаты
«one government letter away from disappearing» (0:27) В одном правительственном письме от исчезновения
«You don't own them. You rent access and rented access could be revoked at any time» (1:37) Ты ими не владеешь. Ты арендуешь доступ, а арендованный доступ могут отозвать в любой момент
«The single most powerful model on earth is gone overnight» (2:01) Самая мощная модель на земле исчезла за одну ночь
«the people who are truly resilient have a generator in the garage» (2:41) По-настоящему устойчивые держат генератор в гараже
«running a model on your laptop was literally garbage» (3:10) Гонять модель на ноутбуке было буквально мусором
«You don't need frontier intelligence for most tasks. You need good enough intelligence that's private, free, and always on» (6:58) Тебе не нужен фронтир-интеллект для большинства задач. Нужен достаточно хороший, приватный, бесплатный и всегда включённый
«Everyone gets this backwards. They go hunting for the perfect model before they can even run one» (7:44) Все делают наоборот. Охотятся за идеальной моделью, ещё не умея запустить хоть одну
«Bigger basically means smarter, but bigger also means more memory to run» (9:01) Больше значит умнее, но больше значит и больше памяти, чтобы запустить
«your desk becomes this almost mini data center» (10:40) Твой стол становится почти мини-дата-центром
«a raw model is like an uncompressed photo. Quantization is like saving a high-quality JPEG» (13:39) Сырая модель, как несжатое фото. Квантизация, как сохранение в качественный JPEG
«the model is the engine and the tools are the wheels» (16:57) Модель, это движок, а инструменты, колёса
«you'll be shocked with how often the free local model is good enough» (18:06) Ты удивишься, как часто бесплатной локальной модели достаточно
«nothing you give us touches the internet» (20:26) Ничего из того, что вы нам дадите, не касается интернета
«you're selling insurance against exactly what happened with the Fable 5 banning» (22:10) Ты продаёшь страховку ровно от того, что случилось с баном Fable 5
«don't build your entire life on something that can disappear with a single letter» (22:43) Не строй всю свою жизнь на том, что исчезает от одного письма
«this is the weekend I finally bought the policy» (22:55) Это выходные, когда я наконец купил полис
«go build something today that nobody could turn off» (24:43) Иди построй сегодня то, что никто не сможет выключить
Факты
- Fable 5, модель, которую в видео называют самой мощной на планете; отключена после письма правительства США, отправленного в пятницу в 17:21.
- Отключение было полным: для всех, без предупреждения и права на апелляцию, к вечеру пятницы.
- По оценке автора, перелом в качестве локальных моделей случился примерно 6 месяцев назад; два года и даже год назад запуск на ноутбуке был «мусором».
- Локалка на игровом GPU или приличном Mac закрывает, по его оценке, ~80% задач ChatGPT/Claude (в финале называет диапазон 60–80%).
- Два основных рантайма: Ollama (командная строка, любимец разработчиков) и LM Studio (интерфейс, для non-technical).
- Размеры моделей: 4B, 12B, 27–35B, 70B+; 12B, свит-спот на 16 ГБ RAM.
- NVIDIA DGX Spark, специализированный бокс со 128 ГБ unified memory, работает на Linux, крутится 24/7; автор подчёркивает, что не аффилирован с NVIDIA.
- Qwen 3 и новая серия 3.6, open-семейство Alibaba, сильны в коде и мультиязычности, чистая коммерческая лицензия, версии 27B и 35B.
- DeepSeek, сильна в сложном мышлении и коде; reasoning-модели думают 10–30 секунд перед ответом.
- Gemma, open-модель Google, версия влезает в 16 ГБ и на телефон, «красивое чистое письмо».
- Llama от Meta, огромное коммьюнити, много файнтюнов и туториалов, работает почти везде.
- Q4 примерно вдвое сокращает нужную память при минимальной потере качества.
- Hermes, по словам автора, сейчас самый используемый агент в мире, построен для локального запуска, коннектится через мессенджеры вроде Telegram; отдельный эпизод про Hermes desktop вышел неделей ранее.
- Запись сделана в июнь 2026; на этот момент существует баг «модель забывает инструменты», который автор ещё не разгадал.
- Люди в X тратят на локальные машины $5–20K.
Источники
- Anthropic, компания, получившая письмо и отключившая Fable 5.
- Ollama, LM Studio, рантаймы для запуска локальных моделей.
- Qwen 3 / 3.6 (Alibaba), DeepSeek, Gemma (Google), Llama (Meta), open-модели.
- NVIDIA DGX Spark, десктоп-бокс для AI.
- Hermes, локальный агент; предыдущий эпизод автора про Hermes desktop app (обещан в описании).
- Telegram, пример мессенджера для связи с агентом.
- The Startup Ideas Podcast (Greg Isenberg), площадка, где всё это рассказано.
Рекомендации
- Не кивать под видео, а сделать руками: скачать Ollama или LM Studio, вытянуть Qwen 3, запустить, навести на неё Hermes.
- Взять реальную задачу и заставить себя сделать её полностью локально, только так всё «щёлкает».
- Гонять маленькую локальную модель против фронтир-облака бок о бок неделю, чтобы наработать инстинкт.
- Держать сессии узкими, не сваливать «всю жизнь» в один тред.
- Целиться в гибрид: облако на одно, локалка на другое.
Итог
Владей тем слоем, который нельзя выключить, потому что арендованный интеллект исчезает от одного письма, а генератор в гараже работает даже в бункере.