Человеческая клетка дико сложна. Может ли ИИ её расшифровать? | Silvana Konermann | TED

TED19 июня 202677 4682 41810 мин чтениясегодня, 06:55

Коротко

Silvana Konermann, основательница исследовательского института ARC, объясняет, почему сложные болезни (Альцгеймер, рак, инсульт, болезни сердца) до сих пор не вылечены: у каждого пациента своя уникальная комбинация генетических и средовых факторов риска, и подход «одна гипотеза — один ген — несколько лет проверки» не масштабируется. Три технологии, дозревшие за последние год-два — single-cell sequencing (измерять), CRISPR (менять), AI (понимать) — впервые позволяют относиться к РНК как к «языку клетки» и обучить на нём предсказательную модель так же, как LLM выучили человеческий язык. ARC ставит физические эксперименты пертурбации: CRISPR выключает/включает один ген в одной клетке, single-cell RNA-seq фиксирует результат — уже сделано 60 миллионов таких, цель миллиард за четыре года. Конечная задача — «универсальная виртуальная клетка», которая предскажет, какое вмешательство вернёт больные клетки в здоровое состояние сразу по всем пациентам с одной болезнью. Первая модель (state designer) вышла восемь месяцев назад, она state-of-the-art, но пока, по словам Konermann, «не очень хороша» — точность ~20%; инструмент выкладывается в открытый доступ, проводится ежегодный Virtual Cell Challenge.

Главный тезис

РНК — это эволюционно сложившийся, непрочитанный человеком «язык клетки»; если собрать достаточно данных и обучить на них AI так же, как LLM выучили человеческую речь, можно построить модель, предсказывающую, как вернуть больную клетку в здоровое состояние, и так наконец взять штурмом комплексные болезни.

Ключевые идеи

  • 2:34 — комплексная болезнь это не «сложная», а многофакторная: у каждого пациента своя комбинация рисков, в отличие от инфекции с одной причиной.
  • 2:47 — болезни сердца, многие виды рака, инсульт, Альцгеймер устроены одинаково комплексно, поэтому устойчивы к прорывам медицины.
  • 3:50 — три дозревшие способности: измерять (single-cell sequencing), менять (CRISPR), понимать (AI).
  • 4:08РНК это язык клетки: динамический снимок того, что в ней происходит, плюс отражение её генетики.
  • 4:23 — CRISPR (15 лет работы Konermann) теперь работает по всему геному, можно прицельно глушить или апрегулировать РНК одного гена.
  • 5:04 — центральная аналогия: как AI взломал человеческий язык, так может взломать язык клеток.
  • 5:52 — ключевой инсайт последних шести лет: модель учится огромному просто из языка, выстраивая подобие картины мира.
  • 6:20 — критическая разница: человеческий язык создали мы и понимаем его, а биологический язык эволюционировал и для нас непроницаем — «но AI всё равно».
  • 7:11 — LLM прожорливы до данных, а на человеческий язык работали тысячи лет цивилизаций; в биологии такого корпуса нет, его надо генерировать.
  • 8:27 — план: минимум миллиард физических экспериментов за четыре года; уже сделано 60 миллионов.
  • 9:00 — масштаб берётся не миллиардом отдельных реакций, а штрихкодированием клеток и прогоном пулами с обратной расшифровкой.
  • 10:22 — модель должна предсказать, какое генетическое/химическое вмешательство вернёт больные клетки в здоровые сразу по всем пациентам.
  • 11:09 — сегодня поиск мишени это «угадай и проверь»: 20–40 тысяч вариантов, годы на проверку каждого — поэтому болезни не вылечены.
  • 11:43 — цель это универсальная виртуальная клетка, обобщающая на новый тип клетки/болезнь без обучающих данных по ней.
  • 14:12 — модель только для человеческих клеток: сдвигать их состояние трудно использовать во зло, в отличие от аналогичного инструмента для вируса.
  • 16:14 — реалистичный горизонт полезной точности четыре–пять лет, не три месяца.

Почему это важно

Комплексные болезни — Альцгеймер, рак, инсульт, болезни сердца — это основные убийцы, и именно они десятилетиями не поддаются медицине, потому что у каждого пациента свой набор причин и бить не по чему общему. Konermann ставит на то, что совпадение трёх технологий (single-cell, CRISPR, AI) меняет саму методологию: вместо одной доминирующей гипотезы (на которой, по её словам, застряло поле Альцгеймера) — сплошной data-driven перебор всех возможных мишеней. ARC за четыре года вырос до 300+ человек, держит AI и биологию под одной крышей и сознательно отдаёт модель в открытый доступ плюс проводит Virtual Cell Challenge (1000 команд в первом), чтобы двигать всё поле, а не лицензировать находку. Выигрывают пациенты и независимые исследователи, получающие универсальный инструмент; финансовую смелость проекта поддержало сообщество Audacious.

Идеи

  • В 15 лет Konermann уговорила учителя уговорить его коллегу пустить её в лабораторию — и тот первый проект выиграл национальный и общеевропейский конкурсы.
  • Обратная сторона раннего таланта — чувство обязанности что-то с ним сделать.
  • Это её первое публичное выступление за 20+ лет в науке — обычно она «за кадром».
  • Лекция про Альцгеймер 17 лет назад закончилась признанием «мы не понимаем, как он начинается, и терапии нет» — и это засело.
  • Видимые изменения в мозге описаны, но начало болезни и механизм неизвестны.
  • «Complex» в медицине значит не «запутанно», а «многофакторно» — терминологическая ловушка.
  • Инфекция — одна причина; комплексная болезнь — уникальный коктейль рисков на каждого.
  • Шесть лет назад не было уверенности, что LLM на одном лишь языке выстроят картину мира — теперь это аксиома.
  • Шекспировское «to be or not to be» человек достроит слева, а правую сторону РНК-«фразы» не достроит никто из людей.
  • РНК отражает и текущее состояние клетки, и её генетику одновременно.
  • Нужные данные нельзя просто взять — их приходится создавать прицельными экспериментами, где известно и что сделали с клеткой, и что вышло.
  • Единица данных: пертурбация (CRISPR-вмешательство) + измерение выхода (single-cell RNA-seq).
  • 60 миллионов экспериментов уже сделано — отсюда уверенность дойти до миллиарда.
  • Данные о больных и здоровых клетках по многим пациентам уже существуют — их генерировать не нужно.
  • Пример мишени: микроглия (иммунные клетки мозга) при Альцгеймере.
  • Ответ может быть не «дать аспирин», а сложная комбинация вмешательств — или правильный выбор одного из 40 000.
  • Первая модель названа честно: «не очень хорошая», хоть и SOTA на момент выхода.
  • Инструмент выложат в этом году с прямой оговоркой «точность ~20%».
  • Virtual Cell Challenge: 1000 команд в первом заходе, цель — тянуть всё поле вперёд.
  • На вопрос об опасности: тот же инструмент для вируса — «плохая идея, не делайте», но для человеческих клеток злоупотребление трудно.
  • При новом опасном вирусе модель быстро покажет, какой ген в клетке он атакует, — это инструмент защиты.
  • ARC запущен в 2021, заработал в 2022; «до/после» на фото — рост всего за один последний год.
  • Поле Альцгеймера, по её словам, увязло на одной доминирующей гипотезе, которая может быть неверной.

Инсайты

  • Прорыв чаще приходит не от новой идеи, а от схождения нескольких независимо дозревших технологий в одной точке времени.
  • Перенос парадигмы — относиться к биологии как к языку — мощнее любого отдельного алгоритма: метафора задаёт метод.
  • Непрозрачность для человека перестаёт быть препятствием, если у тебя есть модель, которой понятность не нужна; «AI всё равно» снимает ограничение, бывшее фундаментальным.
  • В отсутствие готового корпуса узким местом становится не вычисление, а промышленное производство правильно размеченных данных.
  • Масштаб берётся инженерным трюком (штрихкодирование, пулы), а не грубым умножением числа реакций.
  • Сдвиг с «угадай гипотезу и проверяй годами» на «перебери все мишени разом» меняет не скорость, а саму эпистемологию поиска лекарства.
  • Универсальность модели определяется не объёмом виденного, а способностью обобщать на невиданное — и это самая трудная часть.
  • Двойное назначение технологии разводится по субстрату: ограничение области (только человеческие клетки) снижает риск злоупотребления сильнее, чем любые ограничения доступа.
  • Открытая раздача незрелого инструмента с честными оговорками двигает поле быстрее, чем закрытое доведение до идеала.
  • Доминирующая гипотеза в науке — это и фокус, и ловушка: data-driven перебор страхует от ставки на единственную неверную идею.

Цитаты

«It means that there are multiple different risk factors, and basically every patient has a unique combination of risk factors for a disease» — 2:34 Это значит, что есть множество разных факторов риска, и у каждого пациента — своя уникальная комбинация факторов риска для болезни

«If you kind of summarize it really quickly, it's measuring, changing, and understanding» — 3:50 Если совсем коротко — это измерять, менять и понимать

«RNA is like the language of the cell» — 4:08 РНК — это как язык клетки

«just as AI has cracked understanding human language, you see a possibility that AI can be used to understand the language of our own cells, RNA» — 5:04 как AI взломал понимание человеческого языка, вы видите возможность, что AI взломает язык наших собственных клеток — РНК

«human language was generated by humans... it's basically impenetrable for us, right? But the AI doesn't care» — 6:20 человеческий язык создали люди... для нас он по сути непроницаем. Но AI всё равно

«They're very data hungry» — 7:11 Они очень прожорливы до данных

«our plan is to do at least a billion of these experiments» — 8:27 наш план — сделать минимум миллиард таких экспериментов

«what intervention, what genetic change, what chemical change do I need to make to convert all the diseased cells across all the patients with the same disease back to the healthy cells?» — 10:22 какое вмешательство, какое генетическое, какое химическое изменение нужно, чтобы превратить все больные клетки у всех пациентов с одной болезнью обратно в здоровые?

«normally the way this target identification in biomedicine works today is really this kind of guess and check approach» — 11:09 обычно поиск мишени в биомедицине сегодня работает как «угадай и проверь»

«that's why we haven't cured these diseases yet» — 11:24 вот почему мы до сих пор не вылечили эти болезни

«The whole point of it is that it is a universal virtual cell» — 11:43 Весь смысл в том, что это универсальная виртуальная клетка

«It's not very good. So, I mean, to be clear, it is state of the art» — 12:25 Она не очень хороша. Хотя, для ясности, это state of the art

«someone could build this kind of tool for a virus. And I would say, don't do that» — 14:15 кто-то мог бы построить такой инструмент для вируса. И я бы сказала — не делайте этого

«within four years, five years, we will be able to have these models that are accurate enough to be useful» — 16:14 за четыре-пять лет у нас будут модели, достаточно точные, чтобы быть полезными

«Alzheimer's can get really bogged down by just focusing on one dominant hypothesis that might be wrong» — 16:25 поле Альцгеймера вязнет, фокусируясь на одной доминирующей гипотезе, которая может быть неверной

Факты

  • Konermann родилась в маленьком городе в Швейцарии; на фото, где ей 15, она с первым научным проектом.
  • Тот проект выиграл национальный конкурс и конкурс Евросоюза.
  • В науке она более 20 лет; это её первое публичное выступление.
  • Лекцию об Альцгеймере, которая её зацепила, она слушала в бакалавриате ~17 лет назад (биология и нейронаука, Швейцария).
  • Над CRISPR-технологией она работает 15 лет.
  • Single-cell RNA sequencing снимает экспрессию РНК по одной клетке за раз.
  • Цель: минимум 1 миллиард физических экспериментов пертурбации за четыре года.
  • Уже выполнено около 60 миллионов экспериментов.
  • Поиск мишени — выбор из ~20 000–40 000 возможностей (вверх или вниз).
  • Первая модель (state designer) вышла ~8 месяцев назад, была SOTA на момент публикации; заявленная точность инструмента ~20%.
  • Инструмент планируют выложить публично в этом же году с оговорками о точности.
  • Virtual Cell Challenge проводится ежегодно; в первом участвовало 1000 команд.
  • ARC решили запустить в 2021, реально заработал в 2022; «до/после» на фото — рост за один последний год.
  • В ARC сейчас более 300 человек.
  • Пример клетки-мишени при Альцгеймере — микроглия (иммунные клетки мозга).

Источники

  • ARC (ARC Institute) — институт, основанный Konermann, объединяющий AI и биологию.
  • State designer — первая модель/интерфейс ARC для предсказания изменений клетки.
  • Virtual Cell Challenge — ежегодное соревнование сообщества.
  • Audacious Project — сообщество, поддержавшее финансирование.
  • CRISPR, single-cell RNA sequencing — ключевые технологии.

Итог

Если РНК — это эволюцией написанный язык клетки, то достаточно большой корпус прицельных экспериментов плюс AI впервые дают шанс прочитать его и предсказать, как вернуть больную клетку в здоровую — и так взять штурмом болезни, перед которыми медицина буксовала десятилетиями.

readmint Pro

То, что вы только что прочитали — это саммари readmint

Оформите доступ — и получайте такой же разбор по любому своему видео. Вставляете ссылку, через 2–3 минуты готов пересказ с главными тезисами и цитатами. Без воды и без перемотки.

  • Безлимит саммари — сколько угодно видео
  • Главные тезисы и цитаты без воды
  • Приоритет в очереди обработки
  • Без рекламы и сторонних блоков
Получить такое же саммари
Доступ откроется сразу после оплаты — вставите ссылку и начнёте.

Или 4 900 ₽/год — доступ откроется сразу после оплаты.

Ещё с канала «TED»

Все видео