Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion Model
基于文本的人体动作生成在计算机视觉领域兼具重要性与挑战性。然而,现有方法仅能生成确定性或不够精确的动作序列,难以有效控制时空关系以契合给定文本描述。本研究提出一种细粒度条件生成方法,可依据精准文本描述生成高质量人体运动序列。我们的方案包含两个核心组件:1)语言结构辅助模块——通过构建精准完整的语言特征以充分挖掘文本信息;2)上下文感知渐进推理模块——借助浅层与深层图神经网络分别学习局部与全局语义语言学特征,实现多步推理。实验表明,本方法在HumanML3D和KIT测试集上超越现有文本驱动动作生成方法,并能根据文本条件生成视觉表现更优的运动序列。