喜讯!信息国家研究中心/自动化系江瑞团队研究成果入选2025年度“中国生物信息学十大进展”

2026年3月23日,《基因组蛋白质组与生物信息学报(英文)》(Genomics, Proteomics & Bioinformatics, 简称GPB)公布了2025年度“中国生物信息学十大进展”评选结果。清华大学信息国家研究中心/自动化系江瑞教授团队发表在《自然·方法》(Nature Methods)期刊的论文《单细胞表观基因组基础模型—EpiAgent》(EpiAgent—foundation model for single-cell epigenomics)入选。

单细胞表观基因组基础模型—EpiAgent

表观基因组是连接DNA序列与人体表型、解析致病机制的关键桥梁。清华大学信息国家研究中心/自动化系江瑞团队建立了国际上首个单细胞表观基因组基础模型EpiAgent,原创性地将单个细胞的百万调控元件压缩为“细胞语句”,构建14亿参数的大模型统一解析复杂的基因调控规律。该模型通过独创的预训练任务,在涵盖500万细胞、350亿调控元件的自建超大规模人类染色质开放性图谱(Human-scATAC-Corpus)上完成训练。

EpiAgent不仅使大规模表观基因组数据整合分析成为可能,更在肿瘤细胞中实现了内外源扰动响应与调控元件虚拟敲除的精准推演,从而全面开启了表观基因组虚拟细胞研究与应用的新范式。

EpiAgent预训练数据、词元化过程、模型架构及预训练任务

推荐理由

首个单细胞表观基因组基础大模型,通过14亿参数的细胞压缩语言模型解决数据分析与建模难题,开创了表观基因组研究新范式。

来源 | 清华大学自动化系微信公众号

编排 | 李琳

审核 | 陈文华、王钰言