让AI理解细胞语言预测行为,谷歌、耶鲁Gemma模型,癌症免疫治疗迎来新曙光(让ai理解细胞语言) 99xcs.com

一个由谷歌和耶鲁大学联手训练的AI模型,通过学习海量细胞数据,发现了一种潜在的方法,能让原本对免疫系统“隐形”的癌细胞“显形”。

久久小常识(www.99xcs.com)™

结果,这一预测,在实验室中得到了证实。

这不仅仅是AI辅助药物发现的又一个案例,它展示了一种全新的科研范式:大规模模型不再仅是分析数据的工具,已经进化成一个能够提出全新、可验证、甚至有些反直觉的科学假设的“虚拟科学家”。

AI学会了细胞的语言

在过去,科学家研究组织和器官,就像把一堆水果打成果汁,然后再分析果汁的成分。

你大概能知道里面有苹果、香蕉、橙子,但你不知道每个水果原来的样子,哪个甜,哪个酸。传统基因测序就是这样,它告诉你一个组织里所有细胞基因表达的平均值,却丢失了每个细胞的个性。

单细胞RNA测序(scRNA-seq)技术的出现,彻底改变了游戏规则。

它就像一台超级显微镜,能一个一个地观察细胞,并读出每个细胞里成千上万个基因的活性状态。

这项技术从2009年首次实现,在短短十几年里,其通量和效率呈指数级增长,遵循着某种生物学领域的“摩尔定律”。从最初一次只能分析几个细胞,发展到如今能同时分析数万甚至数百万个细胞。这使得绘制精细的人类细胞图谱成为可能,让我们能以前所未有的精度观察健康与疾病状态下,生命最基本单位的微妙变化。

谷歌和耶鲁大学的研究人员想:能不能让AI直接“阅读”单细胞数据,理解细胞的“语言”,甚至预测细胞的行为?

久久小常识(www.99xcs.com)™

他们基于谷歌开源的Gemma模型,开发了一个拥有270亿参数的Cell2Sentence-Scale 27B模型,简称C2S-Scale。

研究人员创造了一种巧妙的转换方法。他们把一个细胞复杂的基因表达数据,变成一个由基因名称组成的“句子”。在这个句子里,基因的排列顺序不是随意的,而是根据它们的表达水平从高到低排列。一个细胞内表达最活跃的基因排在最前面,就像一句话里最重要的关键词。

这种做法的好处是双重的。首先,它保留了基因表达的相对高低这一关键信息。其次,它把生物学数据转化成了AI最擅长处理的文本格式。这样一来,AI不仅能从海量的细胞“句子”中学习生物学规律,还能把它在学习整个互联网文本时积累的关于基因和蛋白质的知识关联起来。

久久小常识(www.99xcs.com)™

研究团队给模型“喂”了超过5700万个来自人类和小鼠的单细胞数据。这些数据覆盖了各种组织、器官、健康与疾病状态,其规模和多样性都是空前的。

经过海量数据的预训练和针对性任务的微调,C2S-Scale不仅能完成细胞类型分类这样的常规任务,还展现出了一种惊人的“涌现”能力——条件推理。模型学会了根据特定的生物学“情境”,预测细胞会如何反应。

一场精心设计的虚拟药物筛选

拥有了这样一个强大的工具,研究团队决定给它派一个硬骨头的任务。

在癌症免疫治疗中,一个巨大的挑战是很多肿瘤是“冷”的。它们很会伪装,不向免疫系统展示能暴露自己身份的“抗原分子”,导致免疫细胞(比如T细胞)巡逻路过时,完全发现不了这些坏蛋。

免疫治疗的一个核心策略,就是想办法把这些“冷”肿瘤加热,逼它们把自己的“身份证”,也就是抗原,呈现在细胞表面,让免疫系统能够识别并攻击它们。

这个过程叫做抗原呈递。其中,一种叫做干扰素的信号蛋白扮演着关键角色,它就像一个警报信号,能命令细胞加强抗原呈递。可惜,在很多肿瘤微环境中,干扰素信号很微弱,不足以凭一己之力点燃免疫反应的烽火。

研究人员想找一种“条件性放大剂”:一种药物,它本身可能没什么作用,但当它与微弱的干扰素信号同时存在时,就能产生“一加一远大于二”的协同效应,极大地增强抗原呈递,把“冷”肿瘤彻底“加热”。

这种对“条件”和“协同”效应的苛刻要求,传统的药物筛选方法很难实现,而这恰恰是C2S-Scale这种大规模模型发挥其条件推理能力的绝佳舞台。

于是,他们设计了一场前所未有的“双重情境虚拟筛选”。

他们给模型设定了两种场景:

第一种,免疫环境阳性(Immune-Context-Positive)。研究人员把取自真实癌症患者的肿瘤样本数据喂给模型。这些数据非常复杂,不仅包含了肿瘤细胞,还有各种免疫细胞,以及它们之间错综复杂的相互作用网络,并且存在着低水平的干扰素信号。这就像一个高度拟真的战场沙盘,模拟了药物在真实人体内的作用环境。

第二种,免疫环境中性(Immune-Context-Neutral)。他们给模型提供在培养皿里分离培养的癌细胞系数据。这里没有免疫细胞,没有复杂的微环境,就像一个干净但脱离实际的实验室环境。

然后,他们让模型在这两种场景下,对超过4000种已知药物进行模拟。模型的工作不是简单地预测哪种药有效,而是要找出那些只在第一种“免疫环境阳性”场景下才能显著增强抗原呈递,而在第二种“免疫环境中性”场景下几乎无效的药物。

这个设计的精妙之处在于,它能精准地筛出具备“环境依赖性协同效应”的候选者,排除了那些普适性强但可能副作用也大的药物,让筛选结果更贴近临床需求。

一个出乎意料的答案被找到

模型的筛选结果出来了。大约10%到30%的候选药物,在现有科学文献中已经被报道过与免疫调节相关,这从侧面验证了模型的预测是靠谱的,它首先学到了人类已知的知识。

但真正激动人心的,是那些模型预测有效、却从未见于报道的新发现。

在所有候选者中,有一个药物的预测信号格外强烈和清晰。模型指出,一种名为Silmitasertib(也叫CX-4945)的激酶CK2抑制剂,具有极其显著的“环境分化效应”。

模型的预测是这样的:在“免疫环境阳性”的复杂场景中,使用Silmitasertib,细胞的抗原呈递水平会大幅飙升;但在“免疫环境中性”的简单场景里,使用同样的药物,几乎看不到任何变化。

这个预测让所有研究人员都为之一惊。

Silmitasertib并不是一种新药,它作为一种酪蛋白激酶2(CK2)的选择性抑制剂,已经被研究多年,甚至进入了某些癌症的临床试验阶段。CK2这个靶点也确实与许多细胞功能有关,包括免疫系统的调节。

然而,在成千上万篇关于CK2和Silmitasertib的文献中,从来没有人明确提出过,它可以在低浓度干扰素的协同下,特异性地增强癌细胞的抗原呈递。

这说明,AI不仅仅是在数据库里做信息检索和关联,它通过学习海量数据背后隐藏的深层模式,生成了一个全新的、有理有据、且可被检验的科学假设。

从预测到现实的飞跃

计算出的预测无论多么漂亮,终究只是预测。真正的考验来自实验室的培养皿。

研究团队立刻将这个来自AI的假设带到了实验台上。为了进行最严格的验证,他们选择了一种人类神经内分泌肿瘤细胞模型。这种细胞类型的数据,在C2S-Scale模型的训练过程中从未出现过。

实验设计得非常干净利落:

  • 用Silmitasertib单独处理这些癌细胞。
  • 用低剂量的干扰素单独处理这些癌细胞。
  • 将Silmitasertib和低剂量干扰素联合起来,共同处理这些癌细胞。

实验结果出来的那一刻,完美印证了AI的预测。

单独使用Silmitasertib,癌细胞的抗原呈递水平(通过检测细胞表面的MHC-I分子来衡量)几乎没有变化。

单独使用低剂量干扰素,有一点点微弱的提升,符合预期。

而当两者联合使用时,奇迹发生了。抗原呈递水平出现了戏剧性的协同放大效应,增幅高达约50%。

意味着在AI预测的条件下,肿瘤细胞向免疫系统展示“我是坏人”的信号强度,足足提升了一半。这足以让原本可能忽略它们的免疫细胞,重新注意到它们,并发起攻击。

这个从计算预测到实验验证的完整闭环,为“虚拟细胞”这一概念提供了坚实的证据。我们或许真的可以通过构建足够大规模、足够精细的模型,来模拟细胞在各种条件下的行为,从而进行高通量的虚拟筛选,发现那些依赖特定环境的生物学现象,并加速新疗法的开发进程。

研究团队将C2S-Scale 27B模型、Cell2Sentence框架的代码以及相关的研究论文,全部向科学界开源。

虽然证实了协同效应,但其背后的精确分子机制还需要更深入的挖掘。

实验验证目前也仅限于一种细胞模型,未来需要在更广泛的癌症类型中进行测试。

AI已经是人类科学家并肩作战的伙伴,能够洞察到人类思维难以触及的复杂关联,提出颠覆性的想法。

或许有一天,治疗癌症的新方法,就诞生于某个模型的想法之中。

参考资料:

https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery

https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2.full.pdf

https://www.senhwabio.com/en/products/CK2

https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B

https://github.com/vandijklab/cell2sentence

https://pmc.ncbi.nlm.nih.gov/articles/PMC9918030

https://www.nature.com/articles/s41467-020-18158-5

https://www.nature.com/articles/s42003-024-07113-5

END