Коротко
Виктория Лин (Thinking Machines Lab, ранее Meta AI и Salesforce AI Research) утверждает, что чистого языкового моделирования недостаточно: цифровой и физический мир приходят через картинки, аудио и видео, поэтому будущее за native multimodal моделями. Центральная техническая идея — любую модальность (текст, изображение, аудио, видео) можно токенизировать и прогонять через единый трансформер с авторегрессионным обучением, как обычную LLM. Лин разбирает эволюцию архитектур: Chameleon (дискретизация картинки в токены через VQ-VAE), Transfusion (непрерывное представление + диффузия внутри одного трансформера) и Mixture of Transformers (отдельные наборы параметров на каждую модальность при общем self-attention). Ключевой эмпирический вывод: понимание помогает генерации, но обратный перенос (генерация → понимание) пока не работает, и язык как «следующий токен» масштабируется отлично, а видео как «следующий кадр» — нет. Несмотря на успехи в обработке цифровой информации, до настоящего мультимодального интеллекта (real-time, робототехника) ещё далеко.
Главный тезис
Мультимодальный интеллект строится переносом парадигмы больших языковых моделей на все модальности через универсальную токенизацию и авторегрессию, но язык фундаментально отличается от визуальных сигналов, поэтому текущие модели хорошо обрабатывают цифровую информацию и всё ещё далеки от полноценного понимания физического мира.
Ключевые идеи
- 2:53 — языкового моделирования недостаточно, потому что реальный и цифровой мир доходят до нас через картинки, аудио и видео, а не только текст.
- 4:41 — общий рецепт native multimodal: любой сигнал превращается в токены и обучается глобальной авторегрессией, как обычная LLM.
- 5:34 — изображение разбивается на патчи (patchify, ~16×16 пикселей), кодируется энкодером в векторы-токены; видео = последовательность патчей по кадрам.
- 8:32 — два класса моделей: multimodal-in/text-out (Gemini, Qwen, Kimi) и Omni (мультимодальный вход И выход).
- 8:47 — GPT-4o называется Omni именно потому, что умеет ещё и генерировать картинки, а не только текст.
- 12:26 — Chameleon дискретизирует картинку в отдельные токены, что позволяет моделировать мультимодальный мир в едином токенном пространстве.
- 14:01 — для дискретизации используется VQ-VAE с кодовой книгой: патч матчится к ближайшему дискретному коду; затем interleaved текст+картинка обучаются кросс-энтропией.
- 15:38 — дискретизация теряет важную информацию: понимание картинок у Chameleon хуже, чем у моделей с непрерывным энкодером (SigLIP), плюс проблемы с token scale.
- 17:04 — Transfusion берёт непрерывное представление картинки и обучает его диффузией внутри одного трансформера, авторегрессия — только для текста.
- 18:47 — архитектурный микс: causal attention для текста, bidirectional attention для патчей картинки — отсюда название Transfusion.
- 21:53 — Mixture of Transformers: отдельные projection-матрицы attention и feed-forward на каждую модальность при общем self-attention.
- 22:37 — роутинг по типу токена: текстовый токен → текстовые параметры, image → image, audio → speech; трансформер снаружи остаётся единым.
- 24:31 — scaling ladder от 138M до 7B; выигрыш MoT особенно виден на генерации не-текстовых модальностей, для текста — паритет с dense.
- 29:26 — можно заморозить готовую текстовую модель и доучить только новые параметры картинки/аудио, добавляя модальность без полного дообучения.
- 36:52 — язык масштабируется как «следующий токен», а видео как «следующий кадр» — нет: язык — это срез человеческого мышления, картинка/видео — просто статистика мира.
Почему это важно
Это лекция о том, как индустрия пытается сделать AI, который не просто читает текст, а понимает физический и цифровой мир целиком — это нужно всем крупным игрокам (Meta, Google/Gemini, OpenAI/GPT-4o, Qwen, Kimi, ByteDance/BAGEL, Physical Intelligence) и определяет следующее поколение продуктов: визуальные агенты, понимание PDF/инфографики, робототехника (Vision-Language-Action модели). Победитель — тот, кто решит, как объединять понимание и генерацию в одной модели без потери качества; проигрывают подходы, считающие, что «всё токенизировать и масштабировать» достаточно. Лин прямо очерчивает нерешённые проблемы (scaling laws для мультимодальности, перенос знаний из генерации в понимание, моделирование физического мира), задавая исследовательскую повестку для академии и лабораторий.
Идеи
- Токен — не обязательно дискретный символ; вектор, кодирующий патч, тоже называется токеном.
- Большинство «мультимодальных» моделей на самом деле multimodal-in / text-out — генерацию картинок и аудио делают далеко не все.
- Omni-модель должна одновременно и принимать, и порождать все модальности — это качественно сложнее.
- Chameleon показал, что interleaved текст+картинку можно учить с нуля, сохраняя силу текстового бэкбона.
- Дискретизация картинки в токены упирается в token scale: хорошей картиночной модели нужно много данных и обучения.
- Transfusion соединяет две парадигмы — авторегрессию для текста и диффузию для пикселей — в одном трансформере.
- Transfusion отлично генерирует картинки, но понимает их плохо — отсюда открытая проблема поля.
- Поле эмпирически пришло к тому, что для понимания картинки нужен один тип энкодинга, для генерации — другой.
- Современные Omni-модели держат два отдельных энкодера картинки (понимание vs генерация) именно из-за этого разрыва.
- BAGEL (ByteDance) использует разные параметры под генерацию, но базовая модель — мультимодальная языковая.
- MoT композируется с Mixture of Experts — можно масштабировать каждую модальность отдельно по «глубине» экспертов.
- Текстовая модальность дешевле по токенам: текст не растёт так быстро по compute, как генерация картинки.
- Robotics-сообщество стихийно пришло к MoT: «действие» (action) трактуется как отдельная модальность со своим набором параметров.
- VLA-модели (Physical Intelligence) не учат с нуля, а берут Vision-Language модель как бэкбон и ускоряются за её счёт.
- Понимание помогает генерации (лучше планирует и интерпретирует), но генерация почти не улучшает понимание — асимметрия.
- Потратить кучу токенов на обучение генерации картинок не гарантирует роста качества их понимания.
- Loss landscape картинок/видео сложнее текстового: распределение «следующего кадра» огромно из-за избыточности и дублирования.
- Картинка/видео, выглядящие плохо для человека, могут иметь «хороший» loss — и наоборот; визуальный loss обманчив.
- Идея «текст как картинка»: рендерить текст и патчить скриншот вместо токенизации — потенциально дешевле при больших объёмах.
- OCR, по личному мнению Лин, всё ещё несовершенен (теряет markdown-разметку, italic/highlight), и vision-вход мог бы это схватывать естественно.
- Проще приклеивать другие модальности к тексту, чем текст к другим: текст несёт «прогрессивную» инфраструктуру для рассуждения.
- Синтетические данные с врендеренным текстом в видео/аудио-кадры могут решать проблему слабого reasoning у видеомоделей.
- JEPA выделяется как архитектура для пространственно-локального понимания реального мира, где patchify+encoder работает хуже.
- Diffusion language models и discrete diffusion — альтернативный способ обработки «следующего токена», который тоже исследуют.
- Возможно, авторегрессия «следующего токена» — лишь поверхностная форма, а сеть учит куда более богатое латентное пространство.
Инсайты
- Универсальная токенизация — это не приём, а способ импортировать всю инфраструктуру LLM (prompting, planning, scaling) в любую модальность.
- Дискретизация и непрерывность представления — фундаментальный trade-off: дискретное удобно для единого моделирования, непрерывное сохраняет информацию для понимания.
- Понимание и генерация изображений — пока два разных вычислительных контура, и насильное их слияние в один трансформер снижает качество.
- Перенос знаний между задачами внутри мультимодальной модели асимметричен: «понимание → генерация» работает, «генерация → понимание» нет — модальности неравноценны как источник смысла.
- Язык — это компрессированный продукт человеческого мышления, а пиксели — сырая статистика мира; поэтому одинаковая авторегрессия даёт радикально разные результаты на тексте и видео.
- Сложность loss landscape, а не «похожесть на правду для человека», определяет, масштабируется ли модальность при обучении.
- Текст обладает уникальным свойством reasoning-инфраструктуры, поэтому интеграция модальностей идёт вокруг текстового ядра, а не наоборот.
- Архитектурная специализация под модальность (отдельные параметры) даёт стабильность и масштабируемость там, где единый набор параметров вступает в конкуренцию за ёмкость.
- Успех «next-token prediction» может быть обманчивой поверхностью: реальная работа происходит в скрытом латентном пространстве, которое мы плохо понимаем.
- Прогресс в мультимодальности сейчас идёт не от одной универсальной модели, а от множества специализированных, которые предстоит научиться объединять.
Фреймворки
- Два класса мультимодальных моделей. (1) Multimodal-in / text-out — принимают всё, выдают текст (Gemini, Qwen, Kimi). (2) Omni — принимают и порождают все модальности (GPT-4o).
- Три архитектуры Omni-моделей. (1) Chameleon — дискретизация всех модальностей в токены через VQ-VAE + кросс-энтропия. (2) Transfusion — непрерывное представление + диффузия для картинки, авторегрессия для текста, в одном трансформере. (3) Mixture of Transformers — отдельный набор параметров (attention + FFN) на каждую модальность при общем self-attention.
- Конвейер токенизации по модальностям. Текст → byte-pair encoding; картинка → patchify (16×16) + энкодер → векторы; аудио → waveform-преобразование + токенизация; видео → patchify по кадрам как последовательность изображений.
Цитаты
«only language modeling is not enough» — 2:53 только языкового моделирования недостаточно
«whether the information is in the form of video or audio, we try to change these signals in the token which can be processed by the transformer» — 4:51 будь то видео или аудио, мы превращаем эти сигналы в токены, которые может обработать трансформер
«The main question is whether we can transform every modality into a separate token by tokenizing them» — 12:26 главный вопрос — можем ли мы превратить каждую модальность в отдельный токен через токенизацию
«the discretization of the picture to understand it is often the cause of the loss of important information» — 15:38 дискретизация картинки для её понимания часто ведёт к потере важной информации
«Transfusion is a single transformer that creates a single image based on the autoregressive language modeling and diffusion» — 17:44 Transfusion — это единый трансформер, создающий изображение на основе авторегрессии и диффузии
«we try to make a separate set of transformer parameters for each modality» — 21:53 мы делаем отдельный набор параметров трансформера для каждой модальности
«Keeping the taxed support intact, we can teach only picture and portion parameters» — 29:26 сохраняя текстовую часть нетронутой, мы можем обучать только параметры картинки и аудио
«it is surprising that we can still achieve great success by selling the Pasha model as the next token. But on the other hand, video models are not very strong with the selling of the next frame» — 36:52 удивительно, что языковую модель можно так успешно учить как «следующий токен», но видеомодели слабы при обучении как «следующий кадр»
«when the picture and video are just the statistical data. They are not our personal interpretations of the world» — 37:41 картинка и видео — лишь статистические данные, а не наши личные интерпретации мира
«we are still far from a paradigm that the powerful plant world can show multimodal intelligence» — 40:30 мы всё ещё далеки от парадигмы, в которой система демонстрирует настоящий мультимодальный интеллект физического мира
«making and understanding our own pictures is not a very effective way of doing it» — 33:00 совмещать генерацию и понимание картинок в одной системе пока не очень эффективно
«it is easier to combine the text with the other rather than combining the other with the text» — 52:16 проще приклеивать текст к другим модальностям, чем другие модальности к тексту
«the next token development is only a surface form and is doing something more than a network case» — 57:27 предсказание следующего токена — лишь поверхностная форма, а внутри происходит нечто большее
Факты
- Спикер — Victoria Lin, member of technical staff в Thinking Machines Lab; ранее research scientist в Meta AI и Salesforce AI Research, PhD из (по транскрипту) Washington University.
- Лекция читается в курсе Stanford CS25: Transformers United V6; спикер оговаривает, что излагает личные взгляды, не позицию работодателя.
- Размер патча при patchify — 16×16 пикселей (uniform size).
- Chameleon дискретизирует картинку через VQ-VAE с кодовой книгой (в транскрипте «W-AQAE»).
- Transfusion использует causal attention для текста и bidirectional attention для патчей изображения.
- Эксперименты с Mixture of Transformers — scaling ladder от 138 млн до 7 млрд параметров, сравнение с dense baseline и с MoE из четырёх экспертов.
- Как multimodal-in/text-out названы Gemini, Qwen (Coin/Quin), Kimi; GPT-4o назван как Omni-модель, умеющая генерировать картинки.
- BAGEL (в транскрипте «Beagle») — Omni-модель прошлого года (ByteDance), использующая разные параметры под генерацию при мультимодальном языковом ядре.
- Physical Intelligence упоминается как пример VLA-моделей, берущих Vision-Language модель как бэкбон вместо обучения с нуля.
- Профессор Sergey Levine (Berkeley, в транскрипте «Sergei Levi») в твите отметил контраст: язык отлично учится как «следующий токен», видео как «следующий кадр» — плохо.
- Современные непрерывные энкодеры понимания упомянуты как SigLIP.
- Лин говорит, что лично не экспериментировала с подходом «текст как картинка», но видела статью начала года, где модель на одних входных картинках давала хорошие результаты (хедж: «I remember seeing a paper», не уверенное утверждение).
- По поводу OCR Лин подчёркивает, что это её личное мнение — OCR «still incomplete», теряет разметку абзацев.
Источники
- Chameleon — модель с дискретной токенизацией всех модальностей (VQ-VAE).
- Transfusion — архитектура «авторегрессия + диффузия» в одном трансформере (paper упоминается).
- Mixture of Transformers (MoT) — собственная работа спикера по модально-специфичным параметрам.
- BAGEL (ByteDance) — Omni-модель с раздельными параметрами генерации.
- JEPA — архитектура для пространственно-локального понимания реального мира.
- GPT-4o, Gemini, Qwen, Kimi — упомянутые мультимодальные модели индустрии.
- SigLIP — непрерывный энкодер изображений.
- Physical Intelligence — лаборатория/модели Vision-Language-Action для робототехники.
- Твит Sergey Levine про асимметрию масштабирования языка и видео.
- Discrete diffusion language models — упомянуты как альтернативная парадигма обработки токенов.
Итог
Перенести парадигму LLM на все модальности через токенизацию и авторегрессию удалось для обработки цифровой информации, но язык как сжатый продукт мышления и видео как сырая статистика мира — принципиально разные сигналы, и преодоление этого разрыва, а не простое масштабирование, отделяет нас от настоящего мультимодального интеллекта.