北京信息科学与技术国家研究中心

Beijing National Research Center for Information Science and Technology

生物信息学研究部

生物信息学研究部

    一、研究部介绍
    生物信息学研究部由清华大学自动化系、计算机系、微电子所、医学院、生命科学学院以及环境学院的研究人员组成,旨在通过学科间的交叉合作,用信息和系统的观点和方法研究生命科学基础问题以及由此对信息科学与技术提出的理论和方法问题,探索生命系统的信息机理,探索用工程方法对生物分子调控系统进行设计和改造,并在研究中培养前沿研究人才。
    研究部在生命组学、临床表型、医学影像、中医药等数据的智能信息处理和整合分析方面具有深厚的工作基础,在生物信息学、网络药理学、合成与系统生物学、与人体融合的信息器件等方面有多项研究处在世界前列。是国家自然科学基金创新群体,承担了国家973项目“基于新一代测序的生物信息学理论与方法”、“分子生物学技术平台的建立、完善及计算系统生物学研究”,863项目“生物信息学与计算系统生物学方法与技术”等;承担了多项国家自然科学基金重点项目。

    二、主要研究方向
    生物信息学研究部以对生命系统的信息本质与规律的研究为使命,在信息科学与生命科学的交叉方向上开展深入持久的基础性研究和前沿技术研究。同时,以基因组学、细胞图谱、表型组学、网络药理学、健康医疗大数据和先进信息器件为基础,发挥现代和未来信息科学、生命科学最先进技术和中医系统思想的综合优势,探索健康医疗关键技术和智慧医疗系统,创建符合我国中医药整体特色的原始自主创新方法,建立未来智慧医疗生物信息学基础研究平台,为揭示生命系统奥秘、更好促进和保障健康、实现智慧健康医疗提供新途径,并在研究中培养国际一流的研究人才。
    研究部获得了陈-扎克伯格基金“人类细胞图谱计划”首批资助,致力于建立人体所有细胞的参考图谱,测绘生命的基本单元和原理,为理解健康和诊断、监控、治疗疾病提供基本参照。
    主要研究方向包括:

    1.未来全息智慧医疗的生物信息学基础
    深度解析生命信息系统的分子机理,全方位解析人类各种细胞中的基因组、转录组、表观组、蛋白组信息,建立人作为超级复杂信息系统的分子水平上的多维度图谱,并进一步解码高维多层数据之间的复杂连接;在对基因调控信息建模基础上,发展人工智能方法来获得全新的DNA设计编程能力,发展分子生物学系统仿真技术和合成生物学设计改造技术;结合各层次全方位信息,发展融合表型数据与细胞、分子机理数据的全息生命系统模型。

    2.中医药网络药理学和重大疾病智慧防治
    解析疾病的复杂生物网络和药物的系统调控机制,理解复杂疾病机制、创建新一代中西医药研究模式。网络药理学与中医药整体性、系统性思维相通,突破了单靶标研究模式局限,是下一代药物研究模式。以网络药理学为突破点,集成生物组学、大数据和人工智能等技术,建立中医药原始自主创新体系和扁鹊智慧防治系统,促进中医药创新发展和推动肿瘤等重大疾病的预防与治疗。

    3.健康医疗大数据系统技术
    以健康医疗大数据为基础,集成人工智能、区块链、系统生物学、临床医学,公共卫生等多个交叉领域的技术,研究人体健康和疾病从分子到表型多层次的复杂机制和原理,打造以人工智能为核心的华佗健康医疗系统,在理论研究和实际应用上创新突破。

    4.与人体融合的信息器件
    研究可穿戴柔性电子器件及智能系统,包括柔性声学、力学等传感器及系统,用于检测多种人体健康、姿态、图像等信息。利用前沿的光子学技术,解决生物医学中的成像、治疗等问题。

    三、重要研究成果

    成果方向1:生物信息学

    单细胞mRNA测序技术重建细胞周期伪时序的计算方法。首次提出基于单细胞转录组测序(single-cell RNA sequencing,scRNA-seq)数据的计算方法reCAT以还原细胞周期动态过程。不仅能得到此前难以获得的全细胞周期的高分辨全转录组图谱,还摆脱了同步细胞,染色和标记细胞,体外培养细胞等诸多限制。丰富了单细胞组学数据的分析方法,填补了细胞周期研究的空白,并为相关的单细胞组学研究开辟道路。相关工作发表于Nature Communications上(Nature Commnications 2017, 8 : 22.)

    识别基因调控模式的机器学习方法。率先提出基因组自然语言处理的新思路,通过表示学习和深度学习模型分析基因组序列,准确识别序列调控元件。首次提出整合基因表达数据和染色质开放性精确识别基因调控模式的统计模型,揭示了细胞系特异的基因转录调控机制。相关工作发表在顶级期刊PNAS, Bioinformatics,被F1000推荐为在该领域具有重大意义,为该领域必读论文。

    破译人类疾病遗传基础的计算分析方法。首次提出遗传变异相互作用模块的新观点和检测方法,快速发现协同致病的多个变异,有效解决遗传学研究中“遗传性缺失”的难题,成功揭示了多种复杂疾病的遗传基础。率先提出外显子组测序数据分析的新方法,建立了整合多种组学数据的致病变异识别方法,成功应用于发现多种遗传疾病的致病变异。相关成果发表于国际遗传学权威杂志(PLoS genetics, 2014, 10(3);PLoS genetics, 2009, 5(5))。

    最短特异DNA序列图像观测。在三维随机光学重建显微镜(3D-STORM)平台上,利用分子信标(MB)探针,获得了在复杂细胞核环境背景下,长度仅为2.5kb的特定非重复DNA的原位3D超分辨图像,这是迄今为止人类能够在细胞核中直接观察到的最短特异DNA序列的图像,相关工作发表于国际高水平开放杂志eLife上(eLife 2017; 6 : e21660)。

    一种高效、灵敏的染色质相互作用捕获方法BL-Hi-C。生物大分子的结构决定其功能,染色质三维结构与顺式调控元件的相互作用密切相关,对基因表达调控产生关键影响,并深刻影响着细胞的最终命运。通过生物信息学分析和分子生物学实验,我们建立了一种高效、灵敏捕获结构性和调控性染色质相互作用的新方法BL-Hi-C,首次实现了一种不依赖抗体和探针捕获的染色质三维空间结构捕获富集策略。该方法对研究生命遗传物质(基因组DNA)如何在细胞核中工作并最终解决细胞命运具有重要的技术工程意义。(Nature Communications 2017, 8(1):1622)

    基于基因组序列邻近位置空间依赖性设计的染色质构象差异分析方法。在细胞分化发育的不同阶段或细胞接受外界刺激时,基因组三维高级结构(染色质构象)都会发生相应改变,进而影响基因表达,响应外界信号,最终决定细胞命运。染色质构象变化分析已成为进入4D基因组学研究的一把关键钥匙。考虑DNA序列邻近位置间的空间依赖性,我们首次开发出了利用空间泊松分布过程来寻找与特定位置与及其邻近位置都存在染色质相互作用显著变化的染色质区域的新方法FIND。(Genome Research, 2018, 28: 412-422)。

    预测维持维持染色质三维结构的蛋白质复合体的新算法。蛋白复合体在维持染色质三维结构,介导染色质重塑,调控基因表达等过程中都发挥着关键作用。在对蛋白质复合体功能进行深入研究时,研究者往往也希望在染色质三维结构中,系统的发现可能与目标蛋白一起共同发挥功能的蛋白和蛋白复合体。针对上述生物问题,我们开发了一套新颖的生物信息学方法3CPET。(Genome Biology, 2015, 16:288)

    高维单细胞转录组数据与基因网络先验信息的联合低维表示。提出基于多幅二分图联合表示学习的方法,实现高维单细胞转录组数据与基因网络先验信息的联合低维表示,SCRL方法具有参数少、性能稳定、计算速度快、易于扩展等优点。成果发表于核酸研究(Li et al. Nucleic Acids Research 2017, 45(19):e166)。

    基于层次贝叶斯模型的微生物与微生物及环境与微生物关联推断方法。提出了一种带有稀疏约束的层次贝叶斯模型,能够估计微生物之间的条件依赖关联和微生物与环境直接的直接关联,并且能够推断微生物的绝对丰度。该研究不仅可以用于自然环境中的测序数据,还可以用在人类的微生物研究中,帮助生物学家理解微生物群落的交互。该成果已经发表在杂志Cell Systems上(Cell Systems , Volume 4 , Issue 1 , 129 - 137.e5)。

    成果方向2:网络药理学

    网络靶标原创理论与方法构建。率先开展中医药与生物信息学、人工智能的交叉研究,突破“单靶标-局部对抗”还原论方法的局限,首次提出符合中医药作用特点的“网络靶标-系统调节”理论,进而创建了一套高精度的网络药理学关键算法,从信息与系统的角度促进中医药研究方法的原始创新。代表论文发表于Molecular Systems Biology、Bioinformatics等刊物,被Nature China两次作为亮点报道,F1000推荐为必读论文,单篇SCI最高引用368次;获多项中国、美国发明专利。

    重大疾病的中西医生物分子网络。突破中医客观化、微观化难点,首次构建中医寒热证生物分子网络,发现炎症、肿瘤等患者寒、热证的代谢-免疫失衡机制。并自主建立胃炎癌中西医生物信息一体化大数据平台,通过计算与临床检测,发现了胃炎癌寒热证生物标志物、舌苔生物标志物,并建立炎癌转化的多尺度预警模型。论文发表于IET Systems Biology、Cancer Research等刊物,被评为国家自然科学基金委中医药重大研究计划的优秀代表成果,还被《华尔街日报》长篇报道和头条推荐,入选“2014世界中医药十大新闻”。

    中药方剂的网络调节机制。通过自主建立的网络药理学方法,发现六味地黄等经典中药方剂调节代谢-免疫网络的“异病同治”机理、药效物质、抑制炎癌转化等新适应症,为揭示中医药科学内涵、促进中医药精准使用和研发提供新途径。获系列发明专利并实施转化;代表论文发表于Molecular BioSystems(封面论文)等刊物,入选英国皇家化学会“Top 1%高被引论文”,被美国NIH/NCI肿瘤补充与替代医学研究战略白皮书评价为“至关重要”,该方面成果还被评价为中医药网络药理学的“开拓者”。

    成果方向3:与人体融合的信息器件

    首次提出石墨烯智能人工喉。可以检测聋哑人喉咙振动情况,将聋哑人发出的低吟、尖叫等无意义声音转换为可控的声音,有望辅助聋哑人“开口说话”。(Nature Communications 2017, 8: 14579.)

    开发国际先进小动物光声成像设备。实现小动物全身结构、功能以及分子影像,达到50Hz帧率,该工作发表在Nature Biomedical Engineering上。(Nature Biomedical Engineering 2017, 1: 71)

    开发并利用世界上最快的单次曝光压缩感知相机。捕捉到激光马赫锥的发展和传播过程。该工作发表在Science Advances上(Science Advances 2017, 3: e1601814)。

    超高灵敏度的柔性拉力传感器。柔性拉力传感器具有超高灵敏度和拉伸范围,可同时检测微弱生理信号以及大幅度肢体运动,可以用于健康监护等领域(IEEE Proceedings of IEDM 2016)。

    成果方向4:合成与系统生物学

    微小RNA调控定量函数模型。将系统建模与合成生物实验相结合,在细胞中植入人工基因线路模拟和观测RNA分子竞争调控效应,建微小RNA调控定量函数模型,从理论上给出了RNAi技术的改进方向。该工作是将生物信息学、系统生物学与合成生物学相结合,揭示基因调控规律的一个成功范例,为设计疾病基因靶向治疗提供理论基础。成果发表于美国科学院院刊(PNAS, 2015, 112(10):3158-63 )

    哺乳动物细胞中构建基因线路的新方法。建立了在哺乳动物细胞中模块化构建基因线路的新方法,基于人工转录因子和基因编辑系统构建了合成基因开关,调控病毒复制和免疫刺激因子释放,选择性地杀伤肿瘤细胞。该研究不仅为基因线路的设计与细胞功能调控提供了理论基础,也为肿瘤治疗提供了全新解决方案,相关成果已发表在国际权威杂志(Nature Chemical Biology 2015, 11(3):207-213; Nature Communications, 2016, 7:13056),并已向产业转化。

    一种不依赖参考转录组的选择性剪接分析方法。选择性剪切是真核生物基因表达时的一个必经环节,也是导致蛋白质多样性的一个重要因素。选择性剪切分析中一个常用的指标是每个外显子在mRNA中的使用频率,也称为PSI。目前最好的PSI的估计方法都需要假设被研究的物种有一个高质量的参考转录组,可这个假设在实际应用中往往很难被满足。我们在这个工作中(Nucleic Acids Research 46-2, pp. e11, 2018)第一次提出了一种直接通过参考基因组和RNA-Seq数据来估计PSI值的方法。它不但消除了对参考转录组的依赖,还通过避免RNA-Seq读段和参考基因组之间的比对而提高了计算速度。


    生物信息学研究部网站:http://bioinfo.au.tsinghua.edu.cn/zh