北京信息科学与技术国家研究中心系列交叉论坛(第六十六期)举办

10月12日晚,北京信息科学与技术国家研究中心系列交叉论坛(第六十六期)通过线上会议和直播的形式举办,本次论坛邀请了清华大学计算机系教授,ACM/AAAI/IEEE Fellow唐杰教授作题为“ChatGLM:从千亿模型到ChatGPT的一点思考”的报告。论坛由清华大学信息学院院长、信息国家研究中心主任戴琼海院士和信息学院副院长任天令教授共同主持。信息国家研究中心党政联席会成员、群体负责人以及校内外师生等440余人通过腾讯会议在线参加论坛,累计约38万人次通过上直播、新浪、百度等直播平台在线观看。

唐杰教授作学术报告

近年超大规模预训练模型取得突飞猛进的发展,OpenAI发布大规模自然语言预训练模型GPT-3/4,同时推出了AI聊天机器人ChatGPT,推理能力大大加强,能够回答非常复杂的推理问题,实现多模态融合。清华自研了GLM-130B中英双语模型,参数1300亿,算法采用自研的GLM,支持低成本、低资源使用,仅4张3090即可驱动,同时支持在NVIDIA、海光DCU、华为Ascend 910和神威Sunway处理器上进行训练与推理。报告中,唐杰教授首先介绍了其团队在研发GLM-130B过程中碰到的困难和收获,同时介绍了对ChatGPT技术点的理解,最后分析了下一步要实现ChatGPT需要走的路和面临的技术挑战。

问答环节,唐杰教授同与会人员就大模型训练的参数和结构是否能被解释,未来大模型主要的应用行业和场景等问题展开了深入讨论与交流。