无锡市科技创新服务中心苏南国家自主创新示范区

　　从《星球大战》到《快乐的脚》，许多受人喜爱的电影都包含了通过运动捕捉技术实现的场景，该技术通过视频记录物体或人的运动。此外，这种跟踪涉及物理、几何和感知之间的复杂交互，其应用范围已超出好莱坞，扩展到军事、运动训练、医疗领域以及计算机视觉和机器人技术，使工程师能够理解和模拟真实环境中发生的动作。由于这可能是一个复杂而昂贵的过程——通常需要在物体或人身上放置标记并记录动作序列——研究人员正在努力将负担转移到神经网络上，神经网络可以从简单的视频中获取数据并在模型中再现。物理模拟和渲染方面的工作表明，该技术有望得到更广泛的应用，因为它可以描述图像中真实、连续、动态的运动，并在世界上的2D渲染和3D场景之间来回变换。然而，要做到这一点，当前的技术需要精确了解动作发生的环境条件，以及渲染器的选择，而这两者通常都不可用。

　　现在，麻省理工学院（MIT）和IBM的一个研究团队开发了一个经过训练的神经网络管道，可以避免这个问题，并能够推断环境的状态和发生的动作、感兴趣的对象或个人（系统）的物理特征及其控制参数。经测试，该技术在模拟刚体和可变形体的四个物理系统方面优于其他方法，这些系统在不同的环境条件下显示了不同类型的动力学和相互作用。此外，该方法允许模仿学习——从视频中预测和再现真实世界中飞行的四旋翼的轨迹。为了解决渲染域和图像差异的问题，该团队开发了一个包含神经网络的管道系统，称为“渲染不变状态预测（RISP）”网络。RISP将图像（像素）中的差异转换为系统状态（即操作环境）中的差异，使其方法对渲染配置具有普遍性和不可知性。RISP使用随机渲染参数和状态进行训练，这些参数和状态被输入到可微渲染器中，可微渲染器是一种测量像素对渲染配置（例如照明或材质颜色）的灵敏度的渲染器。这将根据已知的地面真实参数生成一组不同的图像和视频，这将允许RISP逆转该过程，从输入视频预测环境状态。此外，该团队还最小化了RISP的渲染梯度，使其预测对渲染配置的变化不那么敏感，从而使其能够学会忘记视觉外观，专注于学习动态。这是由可微渲染器实现的。

　　资讯来源：http://news.mit.edu/

首页|中心概况|新闻动态|创新力简报|通知公告

动作捕捉上的领先优势：一种新的神经网络方法从视频中捕获物理系统动态运动的特征，而不考虑渲染配置或图像差异