可信软件与大数据研究部

一、研究部介绍

可信软件与大数据成为世界数字经济发展的基础使能技术。本研究部一方面将突破经典软件构造理论,围绕“代码到架构”的创新思路,创新软件自动构造理论与方法,通过对大数据的机器学习,自动生成软件内核程序,形成软件测试、可信验证、自主演化能力;另一方面围绕大数据处理到大数据智能应用范型的转变以及新型硬件和高性能计算技术的融入,突破Hadoop、Spark为代表的层次化大数据系统软件体系架构的极限,研制E级高性能计算方法与系统。

在此基础上发展“可信软件”变革性基础平台, 构建开源软件、闭源软件之外的以大数据为驱动力的“混源软件”,推动社会计算与搜索理论和方法创新。

二、主要研究方向

本方向将重点布局“可信软件”中涉及的软件构造与自主演化理论、大数据系统软件体系架构、E级高性能计算方法与系统、社会计算与搜索理论与方法等四个方向,建设未来软件和大数据交叉融合的科学创新平台,为可信软件与大数据发展和技术变革奠定基础。

[方向一] 软件自动构造与自主演化理论:采用跨生命周期的软件构造方法,从全视角确保整个软件生产与运维过程的自动化。通过对构造时与运行时大数据的机器学习,自动生成指令调度、并行控制、资源分配等软件内核程序,智能优化软件测试、可信验证、自主演化的软件自动构造流水线。主要研究内容包括:(1) 知识学习驱动的软件自动编程,(2) 智能优化的高效软件测试验证,(3) 自适应动态环境感知的自主演化。

[方向二] 大数据系统软件体系架构:以大数据智能为牵引,针对大数据系统中“软件与硬件”、“软件与软件”、“系统与应用”多重协同带来的复杂性,通过语义丰富、灵活性强的统一数据模型和工作流程有效降低跨软件协同的结构壁垒,通过发掘新型硬件和软件自动构造,创新大数据系统软件的存储计算与通信和高性能并行与深度学习“超融合”体系架构。主要研究内容包括:(1) 大数据系统软件的新型跨层体系架构,(2) 大数据系统软硬协同优化技术,(3) 大数据系统软件内核智能化技术。

[方向三] 面向地球科学的E级高性能计算方法与系统研究:研究并设计高效可扩展的地球模拟计算机,有效迁移重构数十年积累的百万行地球系统模式算法代码,达到百模拟年/天的模拟速度,是我国大规模并行软件系统从量到质领跑世界的重大机遇。主要研究方向包括:(1) 十亿级并发的地球系统模拟动力框架,(2) 计算存储融合处理器结构,(3) 以数据为中心的存储系统内外存融合机理。

[方向四] 社会计算与搜索理论方法:拟从表达与模型、理论与方法及验证与示范三个层面展开深入研究。其中第一层面是基础,其研究结果为第二层面研究提供模型基础;第二层面是核心,其研究成果为社交网络信息传播预测及引导、用户意图理解及匹配提供理论方法体系与关键技术支撑;第三层面是应用出口,瞄准国家网络文化建设重大战略需求提供示范验证,对各大社会网络平台和商用搜索引擎的安全监管提供支持。主要研究内容包括:(1) 信息、社会、用户三元空间融合建模,(2) 时空域融合的信息传播演化,(3) 复杂传播网络的牵制引导。

三、重要研究成果

1. 软件构造与自主演化理论方向重要研究成果

本研究部软件系统与理论团队,依托教育部信息系统安全重点实验室,面向国家安全攸关行业对高可靠、高可信软件的重大需求,针对传统软件开发自动化程度低、质量控制难度大等应用挑战,突破软件可信设计、可信构造和可信演化方法,创新性的提出了共享信息模型方法和可信软件设计E模型,开发了可信软件建模验证工具集,并在航空、交通、国防等行业中进行了应用。

可信软件设计E模型

以轨道交通为应用领域,提取轨道交通嵌入式控制系统的领域特征,从全生命周期考察嵌入式软件系统的建模、验证、测试、仿真、监控和度量等过程,建立起支持可信软件工程研究的嵌入式软件系统试验环境。研究提出面向可信软件设计的E模型,实现了基准线、开发过程、保障技术在领域信息模型中的融合。研究领域知识建模方法和系统级软件建模方法。研究在可信基准线的指导下,实现多维度的软件可信保障技术。重点研究软件测试、静态分析和形式化验证等技术,开发相应的工具集。相关成果辐射到工程领域,形成工程领域信息模型国家标准。相关工具集在轨道交通核心控制系统,航空发动机控制系统等领域进行示范应用。

为保证软件系统,尤其是嵌入装备控制式软件的可靠性,本研究部开展了代码静态分析技术研究和工具研制。静态分析可以在不执行代码的情况下,实现对代码中缺陷的分析,具体而言包括以下几个方面的研究内容:

(1) 研究面向代码规范的合规性检测工具。实现规范描述语言,在混合程序模型(包含语法、结构、语义信息)上对结构性规范进行描述并进行检测。该工作可以检测GJB-5369以及MISRA-C中的结构性规范,应用于航天工程大学,以及中国航发控制系统研究所(检测定制规则)。

(2) 研究面向运行时缺陷的静态缺陷分析工具。该工具在Juliet测试集上能够达到90%以上的准确率。并可实现100万行代码的检测。该工具应用于中国科学院信息工程研究所,在国产化操作系统中检测到若干内存安全缺陷,助力了国产化装备的“自主可控”进程。

(3) 研究面向核心软件代码的程序验证工具,参加SV-COMP竞赛,并在部分分支获得第一名/第二名的成绩。

本研究部与华为联合研发了自主可控的智能模糊测试工具,通过完成如下三点优化:

(1) 建立基于轻量级的符号执行来生成蕴含合理模糊测试方向的初始种子的机制;

(2) 制定公平和快速的模糊测试变异策略,根据路径覆盖情况及其他信息考虑每个种子的特性,对它们以不同的方式和权重进行变异;

(3) 改进工具在异构环境下的构建和运行支持,从而可以自动测试自主演化软件系统的安全性。实现了高效的内存安全等漏洞的检测定位,在覆盖率,缺陷发现数等关键指标上达到国际领先水平在华为内部通信软件上发现了数十个严重影响系统性能的致命安全漏洞,也在开源热点项目上发现数以百计的缺陷,目前已有数十个被收录在美国国家安全局设立的漏洞库CVE以及中国国家信息安全漏洞标准库CNNVD中。

2. 大数据系统软件体系架构方向重要研究成果

本研究部大数据系统软件团队,依托国家发改委批建的大数据系统软件国家工程实验室,面向国家大数据产业重大需求,针对大数据系统软件面临跨界数据融合、用户结构转变等应用挑战,突破大数据系统软件技术瓶颈,研发了自主可信、易用管用的“清华数为”大数据系统软件栈。创新性地提出了大数据系统软件“三层次、五阶段”的系统架构,自主研发了物联网数据处理、跨界数据分析、工业数据质量、交互分析环境等系统软件,以及基于模型驱动架构的大数据软件定义与集成框架。

遵循“1+X”架构,国家工程实验室在民生、制造、能源等多个重点行业与多个国家级的产业优势单位合作,沉淀领域平台、构建产业应用,推动大数据技术同实体经济深度融合发展。

典型应用包括:

清华大学与国家气象局联合研发的新一代中国天气预报大数据平台,它支撑了中央台和28个省台的全部天气预报业务,并推广到多个“一带一路”国家,将气象数据使用效率提升百倍,特别是将极端灾害性天气预报准确率大幅提升619%,在国际上处于领先水平。

清华大学联合石家庄天远科技集团深入研究产业特点,基于“云+端”的设计思路,采用工业互联网、云计算、大数据、机器学习等技术,建设了国内价值最高的智能装备大数据平台,服务于多个世界五百强企业,在控设备达25万余台。采集4000多种类型的设备状态、作业操作、环境参数等实时数据;支持远程发动机运行参数调优,辅助装备远程操作;实时汇总和分析全国每台设备施工量、能耗与排放。

清华大学联合北京工业大数据创新中心、金风科技集团研制了金风大数据平台管理平台,目前接入了2万多台风机的数据,其中传感器时序数据900多亿行、对象数据1000多万个。通过平台的一体化、高效存储,占用存储空间达65T,其中时序数据占比为60% 以上。

3. E级高性能计算方法与系统方向重要研究成果

本研究部E级高性能计算团队面向国家战略需求,研究面向地球科学等典型应用的高性能计算机系统,有效重构数10年积累的100万行地球系统模式算法代码,达到百模拟年/天的模拟速度,是现有并行计算系统从单一目标走向复合发展的重大机遇,也是我国大规模并行软硬件系统从量到质领跑世界的重大机遇。

本研究团队依托安装了40960个中国自主研发的“申威26010”众核处理器全球神威太湖超级计算机和大数据系统计算技术国家工程实验室等平台,近年来取得了如下的创新型成果:

(1) 受脑启发(brain-inspired)的新型处理器结构与系统软件

针对构建E级计算机所面临功耗墙、访存墙等重大挑战,开展了新型处理器结构与系统软件研究。首先,围绕清华大学自主研发的类脑芯片,构建了包括系统仿真、网络编译、开发语言等在内的系统软件栈,在应用开发可移植性/便捷性以及支持的神经网络规模/精度方面都要优于IBM TrueNorth的开发系统。其次,提出了端到端的基于忆阻器的神经网络芯片及其软件系统设计方法,模拟结果表明在资源开销与/或处理精度方面明显优于现有芯片结构。

(2) 大规模图计算系统

图数据是一种新的大数据形式,本研究团队先后提出并实现了一系列图分析工具,包括单机外存图处理引擎GridGraph、分布式图计算系统Gemini以及基于国产超级计算机神威太湖之光的图处理引擎“神图”。GridGraph可以在单机上有效利用外存处理单机无法处理的大图数据,Gemini在典型大数据分析应用(如PageRank, ALS等)上的性能是国际同类图计算系统PowerGraph和PowerLyra的十倍以上,是目前流行的大数据系统Spark性能的100倍以上,占用内存仅为其十分之一。神图可以利用神威太湖之光上的1.3PB内存和40000多节点,在21秒内完成12万亿边的真实搜狗全中文网页图(数据量压缩后137TB)的一轮PageRank算法迭代。

上述系统在互联网搜索引擎、金融反欺诈、失联修复、信用分析、金融风险分析等领域获得了应用,服务对象包括工商银行、搜狗、京东金融、民生银行等。

(3) 超高可靠的自维护存储系统

自维护存储是指存储系统交付使用之后,在其生命周期内都能够提供正常的服务,不发生数据丢失,并且无需管理员进行维护的存储系统。基于高性能大规模编解码计算方法和基于浮动数据块组织的快速自愈方法,研制完成了自维护存储系统TStor。TStor由16个节点组成,每个节点具有12块存储磁盘,单盘容量为8T,整个存储系统总容量为1.5PB。系统的聚合写入带宽为7.6GB/s,聚合读出带宽为9.3GB/s。系统采用了32+16的纠删码保存数据,能够容忍16个磁盘的同时出错。TStor已在国家气象中心、中国电力科学研究院、远景能源(江苏)有限公司等单位应用,并由同方股份有限公司产业化推广。

(4) 大规模高性能计算应用

清华大学与中科院软件所、北京师范大学合作研制了一套适合于大规模异构众核环境的全隐式求解算法,在神威太湖之光上首次实现有效利用千万核、峰值效率超过6%的非静力大气动力过程隐式模拟,其模拟速度较美国下一代大气模拟系统计算效率提升近1个数量级,较2015年ACM Gordon Bell奖成果在并行度和峰值效率均提升一个数量级。该工作获得2016年ACM Gordon Bell Prize。

清华大学联合山东大学、南方科技大学,基于神威太湖之光成功设计实现了高可扩展的非线性大地震模拟工具。该工具可实现高达18.9PFlops的非线性地震模拟,在国际上首次实现超大规模、高分辨率和高频率的非线性可塑性地震模拟。该工具首次实现了对唐山大地震(M7.2, 1976)发生过程的高分辨率精确模拟。该工作获得2017年ACM Gordon Bell Prize。

4.社会计算与搜索理论与方法方向重要研究成果

本研究部社会计算与搜索团队瞄准国家社会管理创新的重大战略需求以及复杂系统、社会学理论及大数据分析多学科交叉的学术前沿,建立了三元空间异构数据深层关联表征及三元空间群智计算基础理论,发展了数据驱动和知识引导相结合的大数据计算新模式,率先实现了社会动力学现象的多尺度可计算建模,旨在揭示“人-事-地”三元空间复杂巨系统历史形成与时空演化的内在本质规律,为社会重大安全事件的态势分析、苗头预判及有序引导提供理论基础与技术保障。具体取得了如下创新型成果:

(1) 社交网络大数据表征学习

团队重点研究了面向多模态异构数据的深层学习方法,针对三元空间大数据的特性,提出了异构社交网络表征学习方法体系,对于解决三元空间大数据的计算可扩展性和网络可推理性问题打下了重要基础。目前已在数据挖掘领域顶级国际会议KDD以及人工智能领域顶级国际会议AAAI上发表网络表征学习论文十余篇,并在数据挖掘领域顶级国际期刊IEEE TKDE上发表该方向首篇综述论文。所提出的多个网络表征学习算法,如SDNE, HOPPE等,已经成为网络表征学习领域的代表性算法。曾多次在顶级国际会议上作网络表征学习的指导报告(Tutorial),包括KDD2018,KDD2017, AAAI 2018和ICDM 2016,推动并引领了网络表征学习方向的发展。所提出的CatchSync算法,实现了在亿级规模网络上的高效能异常检测,成果入选了数据挖掘领域顶级国际会议KDD 2014的最佳论文专刊(中国学者首次入选)。总体上,在网络表征学习领域所取得的成果产生了重要的国际影响。

社交网络大数据表征学习框架

(2) 社会动力学现象的可计算建模

针对三元空间数据的时空动态复杂性等特性,提出了社会动力学模型,以及多空间融合计算的基本框架。针对跨平台网络信息传播速度快、渗透力强等特点对网络信息可控性带来的严峻挑战,分别从信息空间和社会空间融合的角度出发,提出了社会事件智能感知与推理方法,建立了跨媒体网络信息的传播动力学模型,发展了用户行为的可计算建模理论方法体系,构建了跨媒体网络信息平行态势推演平台,通过应用示范系统的构建和理论方法的验证,为国家网络舆论态势分析、苗头预判及有序引导提供了理论基础和技术支撑。上述研究成果连续发表于KDD、IJCAI等顶级国际会议及期刊中。获得了ICME2014最佳论文奖以及ICDM2015最佳学生论文奖。并获得国家973项目支持,中国电子学会自然科学一等奖、北京市科技进步一等奖。多项技术在腾讯、三星等知名企业进行了应用转化。

社交网络信息传播动力学结构模式

(3) 跨媒体大数据的智能计算

面向多媒体数据的多源异构性与认知复杂性的挑战,研究跨媒体大数据的关联表征与智能理解。为解决不同域中信息的不完备性、非对称性、弱关联性等难题,分别从跨模态检索、跨模态分类、跨模态推荐、跨模态视频分析等实际应用问题入手,提出了基于深度哈希的高效跨媒体检索方法、知识可迁移的非对称深度多模态分类方法、基于协同学习模型的跨模态数据分析方法、深度跨平台视频推荐方法等,打通了不同数据源的壁垒,发展了跨媒体关联表征理论,为我国智能城市管理提供了有效的理论支撑。相应研究成果发表于ACM Multimedia、IJCAI等顶级国际会议以及IEEE TMM、IEEE TKDE等国际知名期刊杂志。获得了国家基金委重大项目支持, 并获得了ACM Multimedia 2012最佳论文奖和重大技术挑战奖,IEEE Multimedia 2018年最佳(Best Department Paper Award)论文奖,以及2017年度教育部自然科学一等奖。

跨域深度视频摘要框架