北京信息科学与技术国家研究中心

Beijing National Research Center for Information Science and Technology

智能科学研究部

智能科学研究部

    一、研究部介绍
    新一代人工智能相关学科发展、理论建模、技术创新、软硬件升级等整体推进,正在引发链式突破,推动经济社会各领域从数字化、网络化向智能化加速跃升。面对新形势新需求,为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,服务经济社会发展和支撑国家安全,带动国家竞争力整体跃升和跨越式发展。
    智能科学与机器智能,从大脑的神经元动态连接图机理探索出发,探索大脑感知、认知、决策、记忆等机制,突破智能感知与智能交互、协同感知与协同交互等基础理论以及关键技术,建立机器感知、机器学习到协同交互、综合推理、混合智能和群体智能。在此基础之上,研发认知交互系统,以汉语教育和国学文化传播为牵引性战略应用,进一步推动人工智能引领的认知交互在教育、医疗、工业、国防等邻域的应用。
    智能科学研究部重点布局脑认知人工智能、可解释人工智能理论与技术、智能感知与芯片、多智能体无人系统、认知交互系统人工智能中间件等内容,为智能科学与机器智能、以及人工智能发展和技术变革奠定基础。

    二、主要研究方向

    1.脑认知人工智能:
    以脑逆向工程为牵引,研制兼具宽视场、高分辨和实时成像能力的新型仪器,实现典型实验动物的全脑细胞级神经网络“结构-功能”统一成像观测与数据采集。建立大脑的动态连接图,将神经科学实验与理论、模型、统计学等进行整合,以“神经元分类及协作”、“神经元信息传递与决策”和“神经与血管耦合”三大脑认知基本问题为切入点,揭示脑认识,同步开展类脑计算技术,回馈人工智能创新网络拓扑结构研究。

    2.智能感知与芯片:
    探索新型传感技术,借鉴不同视知觉填补和产生的视皮层神经机制及下行反馈功能,研究异步光流与差分光流感知算法,对场景速度和深度进行同步解析表达;揭示双目融合深度生成机制,探索场景信息和动态高速事件的编码耦合成像;借鉴整体轮廓图形以及整体运动感知机制,构建感知、处理、缓存一体化的新型传感系统;研究具有结构不变性的多视数据协同表征计算方法,实现场景表征测度精确刻画、精确计算;研发传感芯片数据异步读取,信息流控制,解析算法的软件平台。

    3.多智能体无人系统:
    考察多智能体决策框架,从非中心化的局部可见的马尔科夫决策模型出发,将马尔科夫博弈及联合学习机引入到决策过程中,对马尔科夫决策框架进行扩展;对多智能体的协同与竞争问题,在高维状态、动作以及决策空间中,考察多智能体中智能实体与智能节点一致性控制、集群控制、会合控制与编队控制的优化求解,实现大规模多智能体无人系统的协同与竞争。

    4.认知交互系统:
    人工智能技术能为汉文化教育和传播的困境提供新的出路。以可解释人工智能理论与技术为技术手段,采用数据驱动和知识驱动融合技术,智能感知从语音、图像、教育数据等多维方向获取教育的全过程信息;结合认知心理学的认知模型,个性化提供诊断、建模、评估学习者的知识结构与认知特征服务,自适应地传播汉文化;利用类脑功能机制和长短时记忆机制,构建汉语言学习和汉文化传播情境下的高效方法;依托虚实融合技术、自然交互技术、机器人技术,构建多样的汉文化教育传播形式,开发汉文化与人工智能深度融合的机器人应用。

    5.人工智能中间件:
    针对人工智能应用中数据处理、建模策略和业务集成三大功能,研究自适应数据清洗、增广,训练编排等,实现普适性数据接口技术;研究基于增强学习的模型最优化结构搜索,计算资源的自适应获取与释放技术,实现模型学习的全面端到端优化;研究深度学习模型的高效压缩与量化加速方法,研究多平台自动编译技术,实现模型的自动化最优部署。根本上提高人工智能,尤其是人工神经网络、深度学习等前沿技术的应用化效率和创新速度。

    三、重要研究成果

    1.立体视频重建与显示技术及装置
    该项目围绕立体视频重建与显示的关键技术取得突破,授权发明专利51项。创建光照-视角协同采集装置平台,发明光度立体多视角配准方法,突破运动周期性限制,率先实现自由运动对象的立体视频光照重建;发明全自动无标记点运动捕捉与纹理驱动立体视频合成方法,率先攻克了复杂对象运动映射的任意视角立体视频合成难题;发明了二维到三维视频转换的多元信息融合的深度计算方法,研制了“清立方”立体视频转换芯片和装置;发明了无莫尔纹裸眼立体显示方法及装置,解决了宽视场逼真裸眼立体显示难题。关键技术授权应用于Sonic、东芝和索尼等企业,获得了显著的经济与社会效益。该项目获国家技术发明奖一等奖。

“清立方”立体处理芯片与视角-光照协同采集装置

    2.多维多尺度高分辨率计算摄像仪器
    该仪器项目通过光学、微电子、计算机视觉以及信号处理等学科交叉,以计算摄像原理为核心,建立压缩感知摄像模型,采用计算光场、计算光照和计算传感的全计算方案,构建具有宽视场、高动态、十亿像素的多维多尺度成像能力的计算摄像仪器,实现对机体结构多尺度特征及生命活动的多维特征时空连续观测。自主研发的宽视场高分辨计算摄像仪器从理论创新、技术突破、工程实践三个层面率先突破了传统显微成像中大视场与高分辨率之间的固有矛盾和低数据通量的瓶颈制约难题,实现了兼顾“全局形态”和“细节特征”的多尺度观测。该仪器项目已成功应用于脑科学及肿瘤学等生物医学研究,在国际上首次进行了清醒动物中全脑神经网络的单细胞分辨率功能成像、神经—血管耦合机制下结构信息与功能信息的统一观测、脑组织的免疫保护机理研究与心血管药物的在体筛选等多项突破性实验。有望揭示生理和病理状态下神经环路的结构与功能耦合、恶性肿瘤转移的器官亲嗜性等重要生命现象的规律。该仪器项目的研制成功将对推进生命科学和医学科学的发展,提升我国大型精密生物观测科学仪器的研究和应用水平,具有重大的战略意义。该仪器项目入选自然科学基金委员会国家重大科学仪器设备研制专项。

    3.视觉语义感知与分割
    开创性地提出了环境先验与全卷积深度神经网络融合方法,将多模态、多任务先验引入机器学习,用于复杂场景物体实例级别语义分割,首次将物体实例语义分割准确率从80%提高到90%,2016 年在国际最大的微软语义分割权威评测数据集COCO上,实例分割任务上获得第一,来自Google、微软百度、斯坦福大学、等多个机构和研究组参加了该评测。

2016年微软COCO分割比赛冠军

    4.基于单目视觉的六自由度空间感知
    六自由度的物体姿态估计在机械臂抓取、增强现实、虚拟现实等场景中非常关键,现有的基于单目视觉的方法得到的姿态估计都较差,需要进一步利用深度信息和耗时的传统方法进一步精调。该项目首次提出用深度学习的方法将不准确的六自由度的物体姿态估计进行精确调整,比传统方法高效且无需深度信息,实际应用时将不再受深度相机的限制。

在Occluded LINEMOD上的六自由度姿态估计的精调 (ECCV 2018 口头发表)

    5.复杂条件下飞行器可视导航
    在复杂飞行环境的多维信息采集与融合、高分辨率高精度时空配准以及高精度高效飞行环境重建等方面获得多项理论成果,并搭建了全天时全天候高可见性、高分辨率、高精确度的自主可视导航基础系统。在视觉导航理论、高动态环境压缩采样与三维重建等基础研究上的成果积累,以及在飞行器室内厘米级自主高精度定位、未知环境感知和控制等方面取得的重要技术突破。团队在国际空中机器人大赛(International Aerial Robotics Competition,IARC)中,展示和验证国际先进无人机自主导航技术最新进展,成为第23届国际空中机器人大赛中完成第6代任务“隐秘行动”的唯一一支研究队伍,从而也成为继斯坦福大学、卡耐基梅隆大学、柏林工业大学、佐治亚理工学院和麻省理工学院等之后的新一个冠军队伍。


实时三维建模(左)、智能自主定位及导航(中)以及高精度飞行器位姿控制(右)

    6.神经网络结构
    本项目针对训练传统卷积提取高层抽象语义特征时具有的梯度不一致性,提出了用动态卷积操作去缓解这一问题。并开创性地提出了大范围采样的操作,增加了动态卷积的训练稳定性,并增大了神经网络的高层神经元的感受野。改进后的神经网络在检测、语义分割以及光流预测等任务上都取得显著的性能提升,验证了新的网络具有一定的通用性、实用性以及可靠性。

改进的神经网络具有更大感受野和更优的性能(ECCV 2018)

    7.大规模视频数据检索与分析系统
    图像、视频等视觉数据的检索与智能分析是视频监控与视频服务领域的核心技术,在海量视觉数据中快速检索视觉对象、并进行准确语义分析一直以来是国际视觉领域的研究难点,也是推动视觉智能化应用的关键。项目面向智能视觉应用的实际需求,针对视觉数据检索精度低、视觉对象可靠检测困难、语义识别准确度差等重大挑战,发明了多模视觉特征的高效表示、复杂背景下的视觉对象可靠检测及数据驱动的视觉语义提取等方法,研制了系列智能装备与系统,在公共安全和互联网服务领域开展了规模化的智能视觉应用。项目理论成果发表在IEEE TIP、CVPR、AAAI等顶级期刊和会议上,研制了自主知识产权的智能硬件装备与系统,项目成果有力地推动了视觉服务行业的发展和进步。

    8.大光圈大景深全清晰成像
    该项目围绕大光圈大景深全清晰成像的关键技术取得突破。提出多聚焦栈结构光深度感知技术,将光照编码与光路编码相结合,解决了多场景全清晰高分辨率视觉感知的传统结构光深度感知方法中相机景深不足造成的误解码问题;发明基于最大梯度流的迭代滤波反投影全清晰成像方法,解决了大光圈下模糊核的传播对深度感知造成影响,以及纹理边缘在深度传播产生的噪声的问题。该项目研究成果被录用为2016年Applied Optics封面文章。

大光圈大景深全清晰成像示意图: 初始化深度图(左),优化后全局深度图(中),合成全清晰图(右)

    9.基于暗像素机制的红外散斑深度成像
    该项目提出了发射器-单相机结构的暗像素机制红外散斑深度成像方法,解决了主动式深度估计算法受环境光照影响大、不同表面反射率差距较大从而导致深度估计分辨率和稳定性严重下降的问题,如下图所示,提取局部窗口内的暗像素点估计环境光分量,计算出照明散斑分量,从而有效地消除环境光照的影响;提出了基于视差网格划分的产生式图模型以及迭代优化算法,提升了低对比度区域计算结果的稳定性。


基于暗像素机制的红外散斑深度成像系统示意图

    10.基于自适应控制点迭代的双目匹配算法
    该项目开创性地提出了基于自适应控制点迭代的双目匹配算法,设计了深度图与信度图交替更新机制,在每一个局部支撑窗口中考虑颜色差异、空间关系和像素匹配可靠性自适应选择控制点,由控制点拟合的局部平面模型来重新估计不可靠像素的视差值,有效地消除不可靠像素点的冗余和干扰,解决了立体成像算法在边缘、倾斜平面、曲面和遮挡区域效果较差的难题。量化结果表明所提算法的平均匹配视差(A95)<3.5,图像采集距离与景深范围分别为5m和150cm。该项目获得美国自然科学基金委、微软研究院、Middlebury大学等机构组织的双目立体测评排行榜第一(截止IEEE TIP 2015文章发表)。

基于自适应控制点迭代的双目匹配算法

    11.嵌入式深度卷积神经网络加速引擎
    该项目提出了嵌入式深度卷积神经网络加速引擎,如图4所示,采用短位长算术运算,仍然保持较高的输出判决精度,电路设计利用此特点减少硬件、功耗和带宽需求;设计面向高并行计算的VGG16网络模型降维算法,将参数规模减少到原来的7.3%,网络判决准确率降低仅为0.3%;设计基于Tile处理的分块存储映射及片上缓存方法,最小化片上存储容量需求,提高带宽利用率,采用PPMAC架构的运算处理阵列设计,在Xilinx VC709可编程器件上,具有200MHz工作频率,计算吞吐率为202GFLOPS。该项目获得发明专利2项,并发表GlobalSIP国际会议论文2篇。


嵌入深度卷积神经网络加速引擎