undefined

李超 副研究员

可信软件与大数据研究部 大数据驱动的知识管理和决策团队

通信地址:北京市海淀区清华大学FIT楼1-311

联系电话:010-62788788 ext.15

Email:li-chao@tsinghua.edu.cn;li-chao@mail.tsinghua.edu.cn

教育背景

1996.09-2000.07 西安交通大学计算机系 工学学士(外语系英语辅修)

2000.09-2006.07 清华大学计算机系 工学博士

工作履历

2006.08-2012.12 清华大学 信息技术研究院 助理研究员

2012.12-2018.07 清华大学 信息技术研究院 副研究员

2018.08-2019.10 清华大学 信息学院 副研究员

2019.11至今 清华大学 北京信息科学与技术国家研究中心 副研究员

2015至今 清华大学 信息技术研究院 WEB与软件技术研究中心 副主任

2015至今 清华大学 数据科学研究院 智慧城市大数据研究中心 核心成员(智慧教育)

2018-2019 清华(信研院)-倍肯智慧健康大数据联合研究中心 主任

2016至今 清华大学招生办公室湖北组 组员

学术兼职

2010至今 中国计算机学会(简称CCF,下同)高级会员

2011至今 CCF 信息存储技术专委 委员

2017至今 CCF 计算机术语审定工作委员会 责任编辑

2016至今 全国信息技术标准化技术委员会 教育技术分技术委员会(SAC/TC28/SC36)专家委员

2016至今 ISO/IEC JTC1 SC36 WG8 Learning Analytics Interoperability (学习分析互操作)工作组专家

2016至今 中国高等学校计算机教育研究会 对外联络委员会 委员

2019至今 “大数据与智能计算”产教融合创新社区 秘书

2010至今 全国标准化技术委员会(SAC/TC86/SC6)委员

2012至今 《计算机应用研究》期刊 创新型重点作者

2016至今 工信部 中国信息技术服务标准(ITSS)体系建设报告 国际版 编译专家

2016至今 教育部 科技评价与评审信息系统 评审专家

2016至今 北京师范大学 毕业论文校外评阅专家

2018年今 中国电子技术标准化研究院 中国人工智能开源软件发展联盟专家委员会 委员

2019年今 中国青少年宫协会青少年编程能力等级测评专家委员会 专家

以及ICADL、IEEE Healthcom、SSS、ICSH、NCIS、IEEE BigMM、ICCSE等国内外学术会议的组委会或程序委员会成员

多项国标、行标、地标的意见征求人或评审专家

研究领域

在数据与知识工程领域,从事海量数据安全高效的存储、组织、管理与分析及领域应用。

研究概况

[1] 海量结构化数据:

基于列式存储的关系型数据库之前我国既没有掌握其关键技术、也没有自主知识产权的系统。发表了国内首篇中文综述《列存储数据库关键技术综述》(已被70余篇国内硕博论文引用)。作为研发骨干自主研发的华鼎(Huabase)列数据库委托工信部软件与集成电路促进中心的赛普评测中心进行了2个月的测试工作,测试结果表明:HuabaseV1.2实现了由工信部、中国软件测评中心等联合发布的《数据库管理系统测试大纲(V3.0)》的大部分功能。鉴定委员会一致认为:“系统在基于列存储的数据库管理系统的架构设计和关键技术实现上达到了国际先进水平”;“华鼎数据库管理系统的研制成功,对推动我国新一代数据库技术的研究和商业智能分析应用具有重要意义”。在我国做出了开创性的工作。基于上述基础,承担南方电网“数据管理和分析决策系统框架设计研究” 项目、在863项目“生物大数据开发与利用关键技术研究”中与首都医科大学附属安贞医院共同承担“心血管疾病大数据平台的构建和应用研究”课题。

[2] 海量非结构化数字资源:

因其数量远超结构化数据、并不断攀升,其高效管理、组织等有诸多巨大挑战。数字图书馆/档案馆是这类数据产生和利用的重要高质量领域之一,并对国家战略发展有着深远影响。对数字资源长期安全保存问题,结合我国实际,提出一种综合监控多种长期保存风险因素的方法及系统实施框架,发表于数字图书馆顶级会议JCDL 2009 (ACM/IEEE-CS Joint Conference on Digital Libraries),为我校实现了零的突破;提出一种数字格式过时风险评估方法,为计算机处理大规模数字资源的长期保存提供关键性的支持,发表于具有国际影响力的ICUDL2010(International Conference on Universal Digital Library),作为优秀论文推荐到浙江大学学报英文版(SCI)。作为第一完成人主持起草的《非结构化数据采集及分析规范》 SJ/T11445.4-2017 在工信部作为行业标准已发布。

[3] 海量分布式存储:

海量存储是各类数据大规模生成、管理和利用的基石。随着数据规模越来越大,分布式和网络化是大势所趋,系统架构和性能优化是关键。提出一种结合性能分析模型对基于存域网的海量存储系统进行性能监控和预测的方法;针对IO性能优化提出一种自适应的方法和一种基于贝叶斯决策的负载感知方法;获国家发明专利3项(均已转让企业)。作为第二完成人承担973项目“面向复杂应用环境的数据存储系统理论与技术基础”中的课题二“海量数据组织与资源共享的方法研究”,2015年顺利结题,正在申报国家级科技奖项。

上述研究面向国家重大需求主要应用于:

1)数字档案:对数字档案凭证性保障,提出基于电子档案身份证的EAID-PKI安全模型,受北京市科技计划“基于异构系统的电子档案凭证性保障核心技术开发与应用”支持。原型验证系统贯穿6个业务平台、基于10个处理节点、加载200万条共2TB数据,通过了北京软件产品质量检测检验中心第三方测试。作为校内第二完成人的 “数字档案馆建设整体方案研究”项目获国家档案局优秀科技成果奖(省部级)。

2)医疗健康:受863“生物大数据开发与利用关键技术研究--心血管疾病大数据平台的构建和应用研究”课题支持,与安贞医院合作研究心血管疾病大数据的高效存储、处理、分析挖掘和信息安全等关键技术。平台包括2400余万次就诊纪录、详情数据近10亿条、临床数据量达200TB,覆盖100万心血管疾病人群,为提高诊治水平提供大数据支撑。成立清华大学(信研院)-倍肯智慧健康大数据联合研究中心,技术平台服务数据1000万余条,产生经济效益8000万元。

3)智慧教育:在智慧教育领域获得信息化系统工程联合研究中心、铁路行业在线教育培训平台研究与开发、以及教育部在线教育研究中心等项目的支持,先后参与或带领团队完成面向高等教育、职业教育、K12教育等细分领域的教育平台设计、原型研发和解决方案验证,对面向在线教育领域的大数据研究及智慧教育技术的应用方面,带领团队进行用户画像、退课率预测、情感分析、课程评估与推荐等基础应用研究,及其与青少儿综合素养及计算思维编程教育结合的应用研究,参与国内外相关标准化工作,发表的相关论文受到国际一流同行的关注、好评和引用。获清华大学-心神信息化系统工程联合研究中心支持开展个性化、智能化系统研发,承载课程数据50万条、应用数据2亿条,产生经济效益15000万元。

4)互联网感知大数据智能:利用智能化技术处理互联网感知大数据的一系列挑战性问题,包括互联网心跳数据获取、人工智能算法、数据透明可溯、多维对比、可视化分析。已实现中国120万小区、2861个区县、336个城市和31个省市的完整网格建模和宏观数据算法预测与验证。输入的数据达到每个区县5.5万余项统计类别、互联网心跳活动原始量达1.8亿个采集点、每日超过2000万条信息、已积累约70亿条信息,实现7*24不间断处理几十大类、几百项子指数。涵盖超过800种以上业态类别、超过10000种商品的交易情况,以及O2O、房地产、交通、道路、社交媒体、网络舆情,和人口、环境、产业结构、教育、医疗等方面。中国同类团队中,我们是首次实现的。目前已经与多家高端智库达成了数据驱动型新型智库的技术服务与合作,例如:国务院发展研究中心、清华大学国家治理研究院、中国科学院、阿里巴巴城市大脑、SaS(美国最大数据公司)中国总部、以及多家金融、保险等领域上市公司的新型智库定制服务、和行业战略咨询服务。具有技术上起步早、积累多、采集细、覆盖广、强实时,数据处理能力上智能化、超高速、专业性、可信度等一系列行业领先优势。

奖励与荣誉

2008年度国家档案局优秀科技成果三等奖(省部级)

2009年度北京市档案局优秀科技成果一等奖

2011年、2012年 清华 信研院 先进个人

2016年清华第七届青年教师教学大赛理工组二等奖

2018年 《C++语言程序设计》被教育部评选为国家精品在线开放课程

2008年度--2018年度 清华 信研院 连续数年信息报送优秀个人

2016年、2018年 清华 信研院 教学工作优秀个人

2019年 清华 信研院 党支部 优秀党小组长、优秀党员

2019年 清华大学 大学生研究训练(SRT)计划优秀项目一等奖 指导教师

学术成果

[1] 部分论文

Chao Li, Ningning Ma*, Chunxiao Xing, Airong Jiang. An Integrated Approach for Smart Digital Preservation System Based on Web Service. Proceedings of ICADL 2008 (11th International Conference on Asian Digital Libraries, Bali, Indonesia, December 2008) PP. 347-350. EI:20090111836520, ISTP: BIT31

Chao Li, Chunxiao Xing, Li Dong, Michael Bailou Huang. A Semi-Automatic System for Managing Multiple Digital Preservation Risks of Digital Libraries in China. Proceedings of JCDL2009 (ACM/IEEE-CS Joint Conference on Digital Libraries, Austin, TX, USA, June 2009) PP. 425. EI:20094912522158

LI Chao, ZHENG Xiaohui, MENG Xing*, WANG Li*, XING Chunxiao. A Methodology for Measuring the Preservation Durability of Digital Formats. Journal of Zhejiang University-SCIENCE C (Computers & Electronics). Volume: 11, Issue:11, Nov 2010, PP. 872-881. SCI:698IG , EI:20105113496805

李超,张明博,邢春晓,胡劲松. 列存储数据库关键技术综述. 计算机科学 . 2010,37(12):1-7

Guigang Zhang, Chao Li, Yong Zhang, ChunXiao Xing . Massive Data Query Optimization on Large Clusters, Journal of Computational Information Systems(JCIS).2012.8(8):1391-1398.

Guigang Zhang, Chao Li , Sixin Xue, Yuenan Liu , Yong Zhang and Chunxiao Xing. A New Electronic Commerce Architecture in the Cloud. Journal of Electronic Commerce in Organizations (JECO) .2012.Volume 10, Issue 4 :42-56.

Jifeng Cui*, Yong Zhang, Chao Li, ChunXiao Xing, A Packaging Approach for Massive Small Geospatial Files with HDFS, Proceedings of IEEE WAIM 2012

Guigang Zhang, Chao Li, Sixin Xue, Yuenan Liu, Yong Zhang, Chunxiao Xing. Massive Electronic Records Processing for Digital Archives in Cloud. Joint conference of the 7th International Conference on Pervasive Computing and Application and the 4th International Symposium of Web Society ( ICPCA/SWS2012) :830-844

梁野, 潘林, 李超, 秦颖, 面向大数据的跨语言智慧新闻推荐技术与挑战, NCIS 2013 (会议优秀论文)

陈池*, 王宇鹏*, 李超, 张勇, 邢春晓, 面向在线教育领域的大数据研究及应用, 《计算机研究与发展》, 2014(S1):67-74

Y. Wu*, Y. Zhang, C. Wang*, C. Li and C. Xing, HuaVideo: Towards a Secure, Scalable and Compatible HTML5 Video Providing System, Web Information System and Application Conference (WISA), 2014, pp. 81-85. (会议优秀论文)

田洪亮*, 张勇, 许信辉*, 李超, 邢春晓. 可信固态硬盘:大数据安全的新基础,计算机学报, Vol. 39 No.1, 2016(1)

Chunmei Huang, Yingfei Zeng*, Chao Li, Wei Guo, Wei Jiang. Research and Application on Big Data Oriented to Reputation on Collaborative Innovation, IEEE BigMM2016

Jiajun Liang*, Jian Yang*, Yongji Wu*, Chao Li, Li Zheng. Big Data Application in Education: Dropout Prediction in Edx MOOCs, IEEE BigMM2016

Jiajun Liang*, Chao Li , Li Zheng. Machine learning application in MOOCs: Dropout prediction. IEEE ICCSE2016,52 – 57

Mira Shah*, Chao Li, Ming Sheng, Yong Zhang, Chunxiao Xing. CrowdMed: A Blockchain-based Approach to Consent Management for Health Data Sharing. International Conference on Smart Health (ICSH) 2019, June 30-July 2. (best paper award runner-up)

Keyu Song&, Chao Li, Guigang Zhang. Query Based Graph Data Reduction Algorithms and Application in Education. ICCSE2019.

Yixuan Feng, Chao Li, Yun Wang, Jian Wang, Guigang Zhang, Chunxiao Xing, Zhenxing Li, Zengshen Lian. Anti-money Laundering (AML) Research: A System for Identification and Multi-classification. WISA 2019: 169-175.

Jie Xu&, Yong Zhang, Chao Li, and Chunxiao Xing. STDR: A Deep Learning Method for Travel Time Estimation. DASFAA 2019.

[2] 部分专利

基于存域网的海量存储系统的性能监控方法及系统,ZL 2005 10089929.7

一种云程序设计方法,ZL 201210023266.9

基于数据块的自适应数据存储管理方法及系统,ZL 201310291539.2

一种针对混合长度文本集的文本聚类方法,ZL 201510037543.5

一种基于edX平台的MOOC系统,ZL 201610978672.9

一种基于遗传粒子群算法的智能组卷方法,ZL 201610028547.1

一种基于数据分割的数据安全保护方法及装置,ZL 201610188545.9

[3] 教材及专著

邢春晓、张勇、黄梦醒、李超。《IT项目管理》课程教材译著。机械工业出版社,2008

郑莉、李超。《C++程序设计》课程教材编著。机械工业出版社,高等院校计算机精品教材系列,2012(北京市精品教材建设项目)

范淼,李超。《Python机器学习及实践——从零开始通往Kaggle竞赛之路》,清华大学出版社,2016

(多次京东图书分类排行畅销榜、今日头条机器学习推荐图书、受邀发行英文译本海外版)

张桂刚,李超,邢春晓。《大数据背后的核心技术》,电子工业出版社, 2017

人才培养

从事近十年面向全校本科生的计算机公共基础课教学。

标准化相关:

2016年-2017年 主持《基于在线教育大数据的学习分析技术及标准预研究》项目(教育部在线教育研究中心资助)

2018年 《信息技术 学习、教育和培训 在线课程》国家标准GB/T36642-2018颁布,主要起草人

2019年 《计算机核心课程规范 计算机程序设计》(全国高等学校计算机教育研究会团体标准),在研,主要起草人

2019年 《青少年编程能力等级测评认证体系》标准预研项目(CELTS-201923),在研,框架组负责人

在线教育相关:

2015年 合作进行《混合式教学课程建设和研究》教学研究课题

2015年 学堂在线(xuetangX)MOOC《C++语言程序设计基础》、《C++语言程序设计进阶》两门课,实验指导、及综合实例部分主讲教师 前者入选学堂在线2015年最受欢迎MOOC TOP10中的TOP 5。

2016年 入选清华2016年公派教师赴牛津大学EMI(English Medium Instruction)课程训练营,学成结业。

2016年 获学堂在线2016年度“MOOC教学先锋”称号。

2016年 中国高校计算机教育MOOC联盟首批10门优秀课程。

2016年 清华大学第七届青年教师教学大赛理工组二等奖

2018年 被教育部评选为国家精品在线开放课程

课堂教学相关:

2010年春 任《计算机程序设计基础》合教教师,负责完成了课程题库建设。

2010年夏 任《计算机程序设计基础》主讲教师,课容量120,32学时。

2011年秋-至今 任国家级精品课、精品资源共享课《面向对象的程序设计》主讲教师(校内课程名:C++语言程序设计,课组负责人:郑莉) 课容量60,48讲授学时+32实验学时,春季学期/秋季学期。

2012年 合作编著的《C++程序设计》由机械工业出版社作为高等院校计算机精品教材系列出版。

2014年 被院系推荐为优秀青年教师候选人。

从事十几年实验室研究工作合作研究生、访问学生及博士后三十余名,SRT项目合作本科生十余名。