ReMoDiffuse: RetrievalAugmented Motion Diffusion Model

三维人体运动生成在创意产业中具有关键作用。基于生成模型与领域知识的文本驱动运动生成技术近年来取得显著进展,在常规动作捕捉方面成效卓著。然而,面对更复杂的多样化动作时,现有方法仍表现欠佳。本研究提出ReMoDiffuse——一种融合检索机制的扩散模型运动生成框架,通过优化去噪过程提升生成效果。ReMoDiffuse通过三项核心设计增强文本驱动运动生成的普适性与多样性:1)混合检索机制从语义相似度与运动学特征相似度双重维度在数据库中寻找合适参考;2)语义调制变换器选择性吸收检索知识,自适应调整检索样本与目标运动序列间的差异;3)条件混合机制在推理阶段更高效利用检索数据库,克服无分类器引导中的尺度敏感问题。大量实验表明,ReMoDiffuse在文本-运动一致性与运动质量之间取得卓越平衡,尤其在多样化运动生成任务上超越现有最优方法。