Коротко
Спикер из ICON Lab (UC Berkeley) показывает, как сделать роботов способными к безопасному и интеллектуальному взаимодействию с другими агентами через совместное предсказание и планирование (joint prediction and planning) — то, что у людей называется теорией разума. Ключевой технический трюк: большинство реальных мультиагентных взаимодействий оказываются потенциальными играми, поэтому вместо поиска равновесий Нэша через связанные задачи оптимального управления можно решить одну задачу минимизации потенциальной функции — это даёт 20-кратное ускорение и масштабируется. Равновесий взаимодействия много (yield влево/вправо, шесть способов координации вокруг препятствия), поэтому робот должен в реальном времени распознавать, какой режим выбрал человек, и подстраиваться. Чтобы узнать функции стоимости людей, лаборатория развивает мультиагентный inverse RL на базе энтропийных равновесий стоимости (расширение quantal response equilibria и принципа максимума энтропии на динамические игры), учитывая ограниченную рациональность. Финальный поворот: foundation-модели как «тренеры» (curriculum, reward generation, feedback, credit assignment) превращают безнадёжный multi-agent RL в работающий — без дообучения, zero-shot.
Главный тезис
Взаимодействие — это не отдельная задача поверх управления, а структура: если у тебя есть хорошая модель динамики и функций стоимости агентов, то теоретико-игровая структура (чаще всего — потенциальная игра) делает мультиагентное планирование почти таким же дешёвым, как одноагентное, а то, что нельзя смоделировать аналитически, можно «вытренировать» через LLM-коучинг и выучить из демонстраций взаимодействий.
Ключевые идеи
- 4:05 — взаимодействие требует joint prediction and planning: робот должен моделировать реакцию других на свои решения, как водитель при перестроении предугадывает, притормозит ли соседняя машина.
- 4:57 — эта способность у людей называется теорией разума, и её нужно формализовать математически для роботов.
- 6:26 — никакой агент не может оптимизировать в одиночку: решения взаимозависимы, сближение двух роботов даёт высокую collision cost.
- 6:54 — хорошее решение для совместного планирования — это равновесия динамической игры, в робототехнике релевантны равновесия Нэша.
- 8:19 — Нэш элегантен, но вычислять его — значит решать связанные нелинейные задачи оптимального управления в реальном времени, что очень тяжело.
- 10:34 — реальные взаимодействия часто оказываются потенциальными играми, и тогда вместо связанных задач решается одна задача минимизации потенциальной функции.
- 11:22 — потенциальная функция = сумма tracking-стоимостей всех агентов плюс попарные штрафы за столкновения, при условии симметричности этих штрафов.
- 12:28 — редукция к потенциальной игре даёт 20-кратное ускорение для 2–4 агентов, и выигрыш растёт с числом агентов.
- 15:25 — равновесий несколько: уступить влево или вправо одинаково хорошо, но катастрофа наступает, когда агенты выбирают разные равновесия (личный пример: в Сингапуре уступают влево, в США — вправо).
- 18:29 — при двух агентах и препятствии между ними равновесий не четыре (как казалось интуитивно), а шесть — солвер находит неочевидные режимы координации.
- 22:10 — чтобы выучить функцию стоимости человека, надо смотреть на него во взаимодействии, а не в изоляции (как студент узнаёт научрука, наблюдая его с другими студентами, а не в одиночку в офисе).
- 23:49 — модель шума людей берётся из когнитивной науки: quantal response equilibria, зашумлённая версия Нэша, где у каждого агента распределение по действиям.
- 25:59 — лаборатория ввела энтропийные равновесия стоимости — расширение принципа максимума энтропии на мультиагентные динамические игры, с параметром рациональности β.
- 31:26 — мультиагентное имитационное обучение страдает не только от value gap, но и от эксплуатируемости политик, чего нет в одноагентном случае; требуется полное покрытие state-action.
- 35:20 — децентрализованные diffusion policies ловят мультимодальность координации: в 50% прогонов агенты обходят препятствие слева, в 50% — справа, без явной коммуникации.
- 40:14 — multi-agent RL с нуля проваливается (три года reward shaping), поэтому LLM/VLM выступают тренерами: curriculum, reward generation, feedback, credit assignment.
- 43:14 — off-the-shelf LLM, разбивая задачу на подзадачи (стабильность → ходьба → скорость → бег), научил гуманоида бегать (и бегать назад) без дообучения модели.
- 48:22 — проблема назначения вклада: если Боб сделал правильно, а Алиса нет, команда не получает награды, и без разделения вклада агенты не учатся — LLM-критик решает это и даёт прирост на порядки.
Почему это важно
Робототехника движется к развёртыванию в человеческом, неструктурированном мире — складские роботы, дроны, автономные машины, гуманоиды дома, — и провалы координации уже видны в новостях: взбесившийся робот в ресторане, три застрявших друг напротив друга Waymo в Сан-Франциско, гудящие на парковке Waymo, упёршиеся в тупик роботы Amazon. Выигрывают те, кто умеет дёшево считать взаимодействие: академлаба без индустриального компьюта берёт креативностью — потенциальные игры вместо тяжёлых game-солверов, готовые foundation-модели вместо дорогого RL-обучения. Упомянуты соавторы (Mac — распределённая оптимизация, consensus ADMM; коллеги из UT Austin с камерами на кампусе, эксперт по локомоции по соседству), что показывает: прорывы идут на стыке классических теоретико-игровых/оптимизационных инструментов и современных (diffusion, NeRF, Gaussian splats, VLA, LLM-критики).
Идеи
- Робот в коридоре, встретив коллегу, должен делать то же, что человек: распознать конвенцию и подстроиться, иначе — танец «влево-вправо» и тупик.
- Equilibrium здесь — теоретико-игровой, а не control-theoretic (где производная равна нулю); это разные понятия с одним словом.
- В точке равновесия ни один агент не имеет стимула менять своё действие при фиксированных действиях других — отсюда выравнивание решений.
- Симметричность штрафов за столкновения — то, что превращает игру в потенциальную и сводит мультиагент к одноагенту.
- «Запустили на квадрокоптере — потрясающе» — самоирония над тем, что было прорывом тогда и кажется тривиальным сейчас.
- Два дрона с жёстким стержнем сами, без явных инструкций кроме целевой точки, изящно поворачивают стержень и дают людям «перехватить» — чистая эмерджентная координация из game-theoretic reasoning.
- Шесть равновесий вокруг препятствия спикер не смог предугадать сам — солвер нашёл то, что неинтуитивно даже для эксперта.
- Сбор данных о человеке в изоляции бесполезен — нужно ловить момент, когда связь решений агентов максимально сильна (например, когда люди близко расходятся).
- Цитата: «если бы Нэш был статистиком, он бы открыл quantal response equilibrium вместо обычного Нэша».
- Делая агентов более иррациональными, видишь новые режимы взаимодействия, необъяснимые при допущении идеальной рациональности.
- Чтобы понять часть человеческих решений, нужно заложить, что человек может быть иррационален.
- Behavioral cloning в мультиагенте: малейшее отклонение одного агента провоцирует реакцию другого, и система уезжает за пределы обучающего распределения.
- Учить reward, а не policy, лучше тем, что reward позволяет восстановить режимы взаимодействия, которых не было в демонстрациях.
- Классические алгоритмы на мультимодальных данных делают mode averaging и коллапсируют — diffusion это лечит.
- Тренеры спортивных команд в UC Berkeley получают на порядки больше профессора — потому что обучение сложным взаимодействиям ценно.
- Вдохновение для curriculum learning — собственный младенец, учащийся ходить через последовательность задач возрастающей сложности.
- Sacred reward function локомоционной лаборатории (20+ параметров, годы trial-and-error, «не трогай») — LLM-коучинг за полгода вышел на бег.
- Финальную награду нельзя сгенерировать «в один шот» даже множеством итераций — только через разбиение на простые подзадачи.
- Continual learning одного агента можно переформулировать как мультиагентную задачу: достичь консенсуса с прошлыми версиями себя.
- Replay-методы оставляют две копии переставленного стула; регуляризация не адаптируется; ADMM-консенсус в пространстве весов сам решает, что менять, а что держать.
- Лучший способ работать с роботом-помощником по переноске — «закрой глаза, и он сам помогает двигать вещи».
- Проект про LLM-коучинг начали, чтобы доказать себе, что эти системы НЕ работают — а они заработали.
- Самый удивительный результат: VLM лучше всего понимает не видео и не последовательность картинок, а график обучающей кривой, разбитый на компоненты награды. Почему — неизвестно.
- Люди оценивают свой вклад асимметрично: робот справился — «это я молодец», человек ошибся — «виноват робот».
- На исполнении языковая модель не используется вообще — она только в цикле обучения; политика тренируется и деплоится отдельно.
Инсайты
- Структура задачи важнее мощности солвера: найдя, что класс задач — потенциальные игры, ты превращаешь экспоненциально дорогую проблему в дешёвую, не меняя железо.
- Множественность равновесий означает, что «правильного» решения нет — есть только согласованное; ценность не в оптимальности действия, а в совпадении выбора между агентами.
- Социальные нормы и конвенции — это механизм выбора одного равновесия из многих; робот без их распознавания технически корректен, но социально невыносим.
- Шум и ограниченная рациональность — не дефект модели человека, а источник режимов поведения, которые рациональная модель в принципе не способна породить.
- Информативность данных определяется силой связи между решениями агентов, а не их объёмом: тесно-связанные взаимодействия раскрывают предпочтения, разрозненные — почти ничего.
- Мультиагентность вводит качественно новые провалы (эксплуатируемость, credit assignment), которых нет в одноагентных постановках, — это не «то же самое, но больше».
- Ограничение ресурсов вынуждает к архитектурной креативности: дешёвый zero-shot LLM на правильном месте конвейера обыгрывает дорогое обучение с нуля.
- Декомпозиция сложной цели на простые подзадачи — не педагогическое удобство, а необходимое условие: на простой подзадаче даже несовершенная модель угадывает хорошую награду.
- Один и тот же абстрактный приём (consensus/ADMM) переносится между, казалось бы, несвязанными доменами — мультиагентная перцепция и continual learning одного агента оказываются дуальными.
- Эффективность foundation-модели в цикле обучения зависит не от модели, а от формы представления данных ей — выбор абстракции (график вместо видео) решает больше, чем выбор алгоритма.
- LLM полезнее всего на высоком уровне (декомпозиция, оценка, advice), а не в низкоуровневых действиях, где лучше работают модельные контроллеры.
- Люди — не симуляторы: данные о них дороги, разнообразны и культурно нагружены, поэтому ценность не в объёме, а в sample-эффективности обучения.
Фреймворки
Спикер явно описывает, что делает тренер (и что переносится на foundation-модели как коучей):
- Curriculum development — последовательность задач возрастающей сложности, а не сразу самая трудная.
- Reward generation — определение того, что значит выполнить задачу/дрилл (перевод подзадачи в reward).
- Feedback — «эта часть верна, эта нет» после исполнения.
- Credit assignment — в командной работе разделение, кто справился, а кто нет.
Отдельно — порядок вкладов при работе LLM-коуча, в порядке практической важности (из ответов на вопросы):
- Task breakdown — разбиение задачи важнее выбора RL-алгоритма.
- Form of evaluation / представление входа модели — что и как ты подаёшь (графики кривых обучения по компонентам награды оказались эффективнее последовательности изображений и видео).
- Advice / рефлексия — итеративный совет на основе оценки, на практике надёжен.
Цитаты
«we are really hoping to make robots capable of safe and intelligent interactions with other agents» — 0:27 мы очень хотим сделать роботов способными к безопасному и интеллектуальному взаимодействию с другими агентами
«you need to reason about the likely reactions of others to your own decisions» — 4:05 нужно рассуждать о вероятных реакциях других на твои собственные решения
«That is something called theory of mind» — 4:57 Это то, что называется теорией разума
«agents' decisions are interdependent» — 6:26 решения агентов взаимозависимы
«computing these equilibria is really hard» — 8:19 вычислять эти равновесия по-настоящему трудно
«we are 20 times faster for a two agents, the four agents set up» — 12:28 мы в 20 раз быстрее на сетапе из двух-четырёх агентов
«interaction equilibria are not unique» — 15:25 равновесия взаимодействия не единственны
«the convention in Singapore is to just yield to the left for avoiding collisions, whereas here in the U.S., we yield to the right» — 16:02 конвенция в Сингапуре — уступать влево, а здесь в США мы уступаем вправо
«there are six possible ways for these agents to coordinate when there is an obstacle in between» — 18:29 есть шесть возможных способов координации, когда между агентами препятствие
«If you really want to know how a human interacts, you'd better watch them in their interactions» — 22:57 если хочешь по-настоящему понять, как человек взаимодействует, лучше наблюдай за ним во взаимодействии
«if Nash were a statistician, he would have probably discovered this notion of equilibrium instead of the usual Nash equilibrium» — 24:31 если бы Нэш был статистиком, он бы, вероятно, открыл это понятие равновесия вместо обычного равновесия Нэша
«for making sense of certain decisions made by humans, you really need to factor in that they could be irrational to some extent» — 27:20 чтобы осмыслить некоторые решения людей, нужно учесть, что они могут быть в какой-то мере иррациональны
«maybe that explains why coaches at the University of California are paid orders of magnitude more than I'm» — 40:06 может, это объясняет, почему тренеры в Калифорнийском университете получают на порядки больше меня
«we started this project because I wanted to prove to myself that these systems don't work, but they worked» — 57:06 мы начали этот проект, потому что я хотела доказать себе, что эти системы не работают, — а они заработали
«if I don't want to forget about things that I've learned in the past, maybe I need to reach a consensus with the past versions of myself» — 53:18 если я не хочу забывать выученное в прошлом, мне, возможно, нужно достичь консенсуса с прошлыми версиями себя
«But Bob did the right thing. It's only that Alice didn't do the right thing» — 48:05 Но Боб сделал правильно. Просто Алиса сделала неправильно
«When the robot is doing well, the human is like, it's just me, I'm great. But when the human essentially makes a mistake... it's all the robot's fault» — 1:00:33 Когда робот справляется — человек говорит «это всё я, я молодец». А когда человек ошибается — «это всё вина робота»
«The easiest way that I found you could just be working with this robot is just close your eyes, and it just helps you move things around» — 46:24 Самый простой способ работать с этим роботом — закрыть глаза, и он просто помогает тебе двигать вещи
«we found the training curves to be the best abstraction and representation» — 1:07:39 мы нашли, что кривые обучения — лучшая абстракция и представление
«At execution, I'm not using the language model» — 1:10:16 На исполнении я не использую языковую модель
Факты
- Лаборатория спикера — ICON Lab, UC Berkeley; домены работы — control, learning, perception, safety; приложения — складская робототехника, производство, дроны.
- Редукция к потенциальной игре дала ~20× ускорение против существующих game-солверов на сетапе 2–4 агентов; выигрыш растёт с числом агентов.
- Прирост точности предсказания движения пешеходов против SOTA imitation learning — примерно 30% (озвучено в ответе на вопрос про оси графика).
- Данные о траекториях пешеходов собирались камерами на кампусе UT Austin совместно с тамошними коллегами.
- В эксперименте с decentralized diffusion policies агенты обходили препятствие слева в 50% прогонов и справа в 50%.
- Студент спикера потратил ~3 года PhD на reward shaping для локомоции и всё равно не смог заставить два робота координироваться через RL с нуля.
- Sacred reward function локомоционной лаборатории содержит 20+ параметров, результат многолетнего trial-and-error; через коучинг бег получили за полгода.
- Работа про LLM-критика для credit assignment — статья 2025 года; спикер отмечает, что тогда модели были слабее нынешних.
- LLM-критик обошёл SOTA-алгоритмы мультиагентного RL (MAPPO/MAPO, QMIX, LICA) на порядки на примере робот-склада с перемещением посылок.
- Baseline для сравнения коучинга в задачах с горшком/качелями — MAPPO («MOPO» в SRT), который без коучинга «не делает ничего полезного».
- Озарение о множественности равновесий пришло на конференции CDC в Сингапуре; в первый день спикер постоянно врезался в людей из-за другой конвенции расхождения.
- Работа по collaborative mapping использует NeRF, Gaussian splats и consensus ADMM; навык распределённой оптимизации спикер получил, будучи постдоком, на курсе Mac.
- Недавняя работа по continual learning через ADMM-консенсус в пространстве весов нейросети появится на RSS; реальный эксперимент — перестановка жёлтого стула из точки A в B.
- Текущие предварительные результаты (по словам спикера): VLM-критик учит двух гуманоидов работать вместе; квадрупеды помогают людям переносить объекты.
- Соавтор по IRL и распределённой оптимизации обозначен как Mac; в задачах с гуманоидами высокого уровня эффективны низкоуровневые модельные контроллеры, а не сам RL.
Источники
- Потенциальные игры — устоявшийся класс игр в теории игр (спикер подчёркивает, что не она их придумала).
- Quantal response equilibria — концепция из когнитивной науки, объясняющая решения людей в лабораторных экспериментах.
- Принцип максимума энтропии / Maximum entropy IRL — основа для энтропийных равновесий стоимости.
- Diffusion policies — для захвата мультимодальности в траекторной оптимизации.
- NeRF, Gaussian splats — для коллаборативного маппинга сцены.
- Consensus ADMM / distributed optimization — курс Mac, который спикер аудировала постдоком.
- Алгоритмы мультиагентного RL: MAPPO, QMIX, LICA (как бейзлайны).
- Фильм «Золушка» (птицы, помогающие героине) — заявленная детская инспирация для роботов-помощников.
- Площадка/публикация: предстоящая работа на конференции RSS.
Итог
Взаимодействие роботов перестаёт быть тяжёлой задачей, как только ты перестаёшь решать его в лоб: теоретико-игровая структура реальных сцен делает совместное планирование дешёвым, множественность равновесий требует распознавания норм, а то, что нельзя посчитать, можно выучить из взаимодействий или «вытренировать» готовой foundation-моделью в роли тренера.