北京信息科学与技术国家研究中心系列交叉论坛(第116期)举办

6月4日晚,北京信息科学与技术国家研究中心系列交叉论坛(第116期)通过线上会议和直播的形式举办,本次论坛邀请了伦敦大学学院计算机科学系教授汪军作题为“Learning by Stateful Reflective Memory”的报告。论坛由清华大学信息学院院长、信息国家研究中心主任戴琼海院士和信息国家研究中心副主任陶建华教授共同主持。信息国家研究中心党政联席会成员、群体负责人以及校内外师生等80余人通过腾讯会议在线参加论坛,累计约23万人次通过上直播、新浪、百度、视频号等直播平台在线观看。

汪军作报告

报告中,汪军聚焦大型语言模型(LLM)智能体持续经验学习难题,以反思机制为核心:智能体依托历史经验优化后续决策,全程无需改动模型参数。研究借鉴基于案例推理与 Memento系列框架思路,把智能体学习定义为记忆驱动过程,通过留存交互轨迹、典型案例与复用技能,在全新任务场景调取历史经验,优化智能体决策水平。为形式化这一思想,提出了Stateful Reflective Decision Process(SRDP,有状态的反思决策过程)。该模型依靠动态迭代的记忆库完成读写两类核心操作:写入环节留存交互数据、完成策略评估;读取环节检索匹配经验、落地策略优化。研究依托检索增强型策略迭代,打通反思学习与强化学习的融合路径,从理论层面验证:伴随记忆样本持续扩充、覆盖更多状态空间,智能体策略可逐步收敛至最优。该成果搭建起记忆型智能体的完备理论体系,有效支撑智能体落地后动态适配复杂环境。报告同步介绍了自研Memento-Skills智能体系统,该工具可兼容各类商用大模型工程落地场景,具备良好工程复用价值。

问答环节,汪军就Memento实验对硬件、GPU与内存需求;若反思能力依托原生LLM而非外部干预,如何管控反思、记忆压缩里的幻觉、错归因等问题,防止特例经验被固化为可用技能;以及模型是否原生具备主动遗忘冗余记忆、规避上下文超限的能力等问题进行充分解读。

供稿 | 信息学院/信息国家研究中心联合办公室

编排 | 李琳

审核 | 陈文华 王钰言