张勇副研究员

  • Email : zhangyong05@tsinghua.edu.cn
  • 电话:010-62772704
  • 地址:北京市海淀区清华大学FIT大楼1-311
教育背景

1997年9月-2002年7月 清华大学计算机系 计算机软件与理论 博士

1992年9月-1997年7月 清华大学计算机系 计算机科学与技术 学士

工作履历

2023年10月-至今 清华科蓝先进智能数据库研究院 副院长

2019年11月-至今 清华大学信息国家研究中心 副研究员

2005年12月-2019年10月 清华大学信息技术研究院 副研究员

2002年8月-2005年7月 剑桥大学 博士后

学术兼职

2025年1月-至今 Health Information Science and Systems 副主编

2022年8月-至今 Journal of Social Computing 副主编

2021年1月-至今 全国研究生教育评估监测专家库 专家

2011年11月-至今 中国计算机学会信息系统专委会 常务委员

2010年12月-至今 ACM 会员

2006年7月-至今  中国计算机学会  高级会员

2001年1月-至今 IEEE 会员

程序委员会共同主席:HIS2025, WISA 2024, HIS2022, ICSH 2016, ICSH 2014

宣传共同主席:HIS 2021

出版共同主席:WISA 2021, WISA 2017

北京大学图书馆《中文核心期刊要目总览》评审专家

ACM TKDD、IJIM、ACM TMIS、KBS、IPM、WWWJ、ESWA、CMPB、BDR、CMBJ、IMU、CI、FCS、ACI、HISS等国际期刊的审稿人

中国科学、软件学报、计算机学报、清华大学学报等国内核心期刊的审稿人

KDD、AAAI、ACL、EMLP、DASFAA、DSAA、WAIM/ApWeb、ICSH、COMPSAC、ADMA、HealthCom、SEKE、WISA等国际会议的审稿人

研究领域

AI+数据库、数据空间、大数据、智慧健康

研究概况

(1)人工智能与数据库系统: 人工智能和数据库系统在现代信息系统中起着至关重要的作用。这方面的工作包含两个部分: 1)AI4DB: 机器学习、深度学习和大语言模型(LLM)被应用于数据库系统,以提升其性能。 2)DB4AI: 对数据库中的数据进行整理加工,使其成为一个合理的数据集,从而增强人工智能算法的有效性。

(2)数据全生命周期管理:用于管理信息系统中数据流动的整个生命周期的方法。具体而言,它涉及数字资源的长期保存和可访问性,最终支持诸如研究、商业和政策制定等再利用活动。数据全生命周期包括但不限于规划、收集、传输、存储、处理、利用、分析和归档等阶段。数据全生命周期的构建需要根据不同的任务目标灵活选择和合理应用。我们构建了一个数据全生命周期平台,用于管理来自学术研究以及商业的数据集。

(3)数据融合与探索:在商业中需要处理的海量数据通常来自多个数据源。这些不同来源的数据在格式、结构、语义和质量方面往往存在显著差异。为了弥合或消除这些差异,有必要建立或遵循相关标准,并进行数据清洗、转换、增强和融合等操作,最终形成一个统一、可追溯且高质量的数据集。基于知识图谱,我们开发了一套全面的数据融合方法,能够整合海量、多源和异构数据,从而支持商业运营和决策制定。在利用这些数据的过程中,我们开发了交互式数据探索方法,能够预测用户意图并推荐相关数据集。

(4)健康/医学数据管理:健康数据管理是医学领域的一个关键问题,涵盖数据收集、存储、处理、共享和安全等多个方面。一定规模的高质量健康数据对于真实世界研究至关重要。我们与安贞医院合作,建立了心血管大数据联盟数据中心;与301医院合作开发了连接院前急救与手术室的院前急救系统;与清华大学长庚医院合作,协助诊断脓毒症和膝骨关节炎;与北京大学人民医院合作,利用多模态数据优化医疗流程;与北京大学医学大数据中心联合开发了面向医疗的大模型;并与医渡云合作,基于大模型创建了辅助医生诊断、治疗和研究的平台。

(5)知识图谱增强型数据湖:数据湖在存储多样性、可扩展性和灵活性方面具有显著优势,但在管理与治理、数据质量控制以及数据分析复杂性方面也面临挑战。为解决这些问题,我们利用知识图谱技术增强了数据湖,构建了一个大数据管理和服务平台。通过该平台,我们标准化了数据湖中的实体和关系,并利用底层并行处理技术进行高效数据分析。

(6)华鼎大数据管理和分析平台研发及应用:该平台面向行业大数据,提供了海量数据管理、快速检索和可配置分析,目前已经应用到同方股份、河北心神、北京倍肯和安贞医院等单位。以该平台为核心研发了区域医疗资源共享平台,已经在鞍山、锦州、哈尔滨、南宁等地区的医院得到了应用,有效的降低了死亡率,产生了较好的社会影响。

奖励与荣誉

(1)中国发明协会创业奖创新奖一等奖(2023)

(2)中国产学研合作创新个人奖(2021)

(3)中国产学研合作创新成果奖二等奖(2020)

学术成果

发表论文200余篇,包括如TKDE、TOIS、VLDBJ、IPM、IoT、WWWJ、HISC、SIGMOD、VLDB、ICDE、AAAI、SIGIR、WWW、ACL、IJCAI、CIKM和EMNLP等期刊和会议,其中中国计算机学会A类期刊和会议论文24篇。截止2025年3月,Google学术引用2800余次,H指数28。获得发明专利27项,软件著作权25项。 论文列表见:https://dagege.github.io/

人才培养

(1)课堂教学

在课堂教学与课程体系建设方面,作为主讲教师,于2011独立开设面向全校留学生的公选理论课程《软件项目管理过程与方法》(英文教学,每学年48学时),与邢春晓老师于2008合开面向研究生的公选理论课程《软件项目管理》(每学年48学时,本人承担24学时)。在课程中,重视理论与实际相结合,组织学生到具有先进管理理念的IT公司进行参观交流,包括谷歌、百度、微软、IBM等公司。此外,分别于2008年和2015年与邢春晓老师一起翻译了美国Kathy Schwalbe教授的经典教材《IT项目管理》。协助冯建华教授讲授《数据库原理》、王小鸽教授讲授《软件开发方法》。

(2)学生指导

指导的2011级硕士生马鹏斐获得2014清华大学启航奖金奖、2016级硕士生李秀星、2017级硕士生杨俊晔和2018级硕士生吴佳成分别获得2018、2019和2020年计算机系“西贝尔学者”奖学金(全校金额最高的奖学金)。