
新华社杭州10月23日电(记者朱涵)百亿参数人类基因组通用基础模型“Genos”23日在浙江杭州召开的第二十届国际基因组学大会上正式发布。
Genos基础模型相关论文已于22日晚发表于生物学领域国际期刊《大数据科学》(GigaScience)上。记者了解到,在该基础模型支持下,基因组研究迈向智能分析的时代,推动临床疾病诊断、个人基因组解读及前沿科学研究实现突破,助力人类加速读懂“生命天书”。
该基础模型由杭州华大生命科学研究院与之江实验室联合研发完成。杭州华大生命科学研究院院长刘龙奇表示,基因组学领域内的现有模型大多基于一到两个参考基因组进行训练,难以捕捉人类丰富的遗传多样性。而Genos基础模型则系统整合了多个权威公开资源,首次汇聚了全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少“数据偏见”,更全面地代表人类遗传多样性。
目前,在科研领域,Genos基础模型能仅凭DNA序列“秒级”预测RNA表达谱,极大提升了生物信息分析流程的速度。在直接面向临床应用的致病性突变解读任务中,Genos基础模型达到了92%的准确性,结合之江实验室021科学基础模型后,准确率能够进一步提升至98.3%,为临床诊断提供了高效工具。
据介绍,为进一步促进全球科研合作,Genos基础模型将全面开源开放,同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。目前,两个版本的模型权重、架构细节与完整训练流程均已公开发布。