信息国家研究中心灵境智能技术交叉创新群体提出音频引导的无标记演奏动作捕捉新范式

乐器演奏是人类精细动作与乐器复杂交互的综合呈现,精细化地捕捉演奏动作及乐器交互对AIGC动作生成、演奏教学和动作分析等具有重要意义。相比于钢琴、铜管等固定按键乐器,弦乐演奏具有更大的自由度和更复杂的遮挡关系,手指的细微偏移就将导致音乐的巨大差异,这使得弦乐演奏的精细动作捕捉更具挑战性。

一方面,虽然基于传感器或光学标记的动捕系统可以实现高精度动捕,但需在演奏者身上部署传感器或粘贴光学标记点,这样不仅会导致采集流程复杂,而且会干扰演奏动作,更为重要的是,这仍无法精确“捕捉”手指与琴弦的接触。另一方面,虽然基于深度学习的无标记视觉动捕方法能够取得不错的效果,但即便使用最先进方法进行演奏动捕,也会因为缺少对于人和乐器交互的理解与约束,导致捕捉精度低,动作(尤其是手部)与乐器的交互不够准确和自然。综上,现有动作捕捉技术对于捕捉乐器演奏的精妙动作仍存在巨大提升空间。

该工作在保证“无标记”这一重要前提下,团队通过引入音频信号实现了手指与琴弦复杂交互的精确分析与建模,并最终结合视频信号实现了全身演奏动作的精细化捕捉能力,在复杂手部动作和手指-琴弦接触的捕捉方面实现了突破。

弦乐表演数据集(SPD):该数据集采用音频引导的多模态框架,提高了弦乐表演无标记动作捕捉的准确度

由于现有的乐器演奏相关数据集在规模、视角个数、标注粒度等方面存在显著缺陷,因此该工作首先建立了弦乐表演数据集(SPD),其涵盖大提琴和小提琴的演奏数据,共计120个片段,各片段包含演奏音频和多达23个不同视角的视频,总时长超过3小时。此外,为获取精准的细粒度3D关键点标注(包含躯干、双手、乐器和琴弓),本工作提出了音频引导的无标记多模态运动捕捉框架,其结合从音频信号中推断出的手指-琴弦接触位置,以辅助手部精细动作的捕捉,所获得的动作捕捉结果优于目前最先进的基于纯视觉模态的算法。SPD 是第一个用于乐器演奏的、多模态的、大规模的和涵盖了手部动作细节的数据集。

框架流程:基于多视角视频得到初步捕捉结果,同时基于音频提取音高信息并结合音高-指法模型得到理论触弦位置,最终以理论触弦位置作为约束,通过逆向动力学方法获得进一步优化多视角视频的动作捕捉结果。

该工作的贡献除了对弦乐演奏分析任务以及弦乐教学方面的支持外,也为可用于虚拟音乐会、影视动画领域中的演奏动作生成任务提供了重要的数据基础。此外,该工作证实了通过音频辅助视觉动作捕捉的可行性和有效性,该范式可扩展至更广泛的涉及音频-动作关联性的场景中,有助于动作捕捉任务一定程度上突破视觉信息中由于遮挡或接触所带来的限制。

近日,相关论文以“Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture”为题被SIGGRAPH&TOG 2024接收,信息国家研究中心主任戴琼海院士和灵境智能技术交叉创新群体副研究员于涛为共同通讯作者。

供稿 | 灵境智能技术交叉创新群体

编辑 | 李琳

审核 | 丁贵广