为什么我在做一个肿瘤免疫微环境的世界模拟器

去年夏天，我盯着 scGPT 的 benchmark 结果看了很久。

10 万个细胞、12 层 Transformer、参数量挺漂亮——细胞类型分类准确率能到 0.95，零样本注释也能跑通。所有的指标都在说”这是 single-cell foundation model 元年”。但我心里有一个声音始终没绕过去——

你抓到了细胞的”现在”，可肿瘤的故事，是关于”未来”的。

一个让我夜里坐起来的问题

肿瘤免疫微环境（TIME）是免疫治疗的胜负手。同样一个 PD-1 抑制剂打到不同病人身上——有的肿瘤一个月内被免疫细胞围歼，有的反而进展更快。为什么？因为 TIME 不是一张快照。它是一台正在运行的、每秒都在变的、十几种细胞类型互相博弈的动力系统。

scGPT 们做得非常出色——把”现在的细胞”压成一个高维向量。但临床医生想知道的是：

这个病人下一个月的免疫格局长什么样？打了 ICB 之后呢？换一个药呢？

这是一个世界模型问题，不是一个表征学习问题。

偷一个深度学习里的老想法

世界模型这个词不是我发明的。Yann LeCun、David Ha、DeepMind 那帮人从 2018 年就在玩——给 agent 一个内化的环境模拟器，让它在脑子里推演动作。Genie、SIMA、Sora 走的都是这条路。

但他们做的是机器人和视频。还没人认真地把这个 framing 搬到细胞群落上。

我和合作者赌的就是这个：TIME 的演化可以被一个轨迹感知的 Transformer 自回归地学下来——给定 t 时刻的细胞状态分布，预测 t+1。一旦预测得足够准，这个模型就可以做四件别人做不了的事：

轨迹重构：把测序时间点稀疏的真实数据补成连续轨迹
跨癌种迁移：在肺癌训出来的免疫动力学，能不能告诉我黑色素瘤怎么响应？
反事实推理：如果不打 anti-PD1，改打 anti-CTLA4，TIME 走向哪条岔路？
临床决策支持：14 个独立队列的 ICB 响应预测，AUC 0.891

每一件单独做都有人做过。同时做、用同一个 backbone、同一个目标函数——还没人。

为什么这件事难

技术上最难的地方不在模型大小，而在异质性。

你训 LLM，所有 token 都是 token。你训 ImageNet，所有图像都是 RGB。但 TIME 数据是这样的：

一个病人的肿瘤切片，可能有 18 种细胞亚型；下一个病人可能有 23 种，且有 5 种是上一个病人没有的；不同实验室的注释甚至来自不同的命名标准。同一个细胞，今天叫 “exhausted CD8+“，下周技术更新就变成 “TCF1+ progenitor exhausted”。

我们花了三个月去对齐这些命名，重写了一套统一的细胞本体（ontology）。这不是 sexy 的工作，写出来不会进 NC 的 main figure。但没有它，剩下所有的训练都是空中楼阁。

我做的，主要就是这层 ontology + 训练数据管线。我不是这篇 NC 的一作——这次署名我是第 4 作者，前面有三位共同一作扛大梁。但我心甘情愿。因为我深知，这个 12.4 M 单细胞的预训练能跑起来，不是因为有人写了多漂亮的 attention，而是因为有人把那个上游的、难搞的、没人愿意做的数据对齐做完了。

我在赌什么

我在赌的不是 ImmuneWorld 这一篇论文能不能发。它已经在 NC 的 major revision 里——能不能发，不取决于我了。

我在赌的是这条路径：生物医学 AI 的下一个十年，关键不是更大的 LLM，而是把动力系统建模和单细胞数据真正缝起来的那个人。这个 framing 一旦立得住，从单细胞流式 → 时空转录组 → 多组学 → 临床决策，全部可以被同一个 backbone 串起来。

我做了一个赌注：用我大三本科生最稀缺的资源——时间，去 build 这个 framing 的早期实例。

这事的下一步

ImmuneWorld 只是开头。我现在和清华深研院一起做 RST2G（DCE-MRI 乳腺癌时空 Transformer 分割，已发 CBS）；和上海中医药大学龙华医院在做中医四诊多模态智能体（CBS 一作，撰写中）；和 NUS 杨潞龄医学院在做 CA Cancer Journal 的骨肿瘤流行病综述（共一靠后，2026 暑假投稿）。这些项目长得不像，但底下是同一个问题：

怎么把高维、多模态、有时间结构的临床数据，喂给一个能做决策的模型。

我不知道我赌得对不对。但我知道，把所有筹码押在一个我相信的研究品味上，比押在一个安全的 grad school checklist 上，让我每天醒来都更想起床。

——

这是我的 ImmuneWorld 工作笔记。如果你也在做 single-cell foundation models / world models / clinical AI，欢迎来邮箱聊。