从《星球大战》到《快乐的脚》,许多受人喜爱的电影都包含了通过运动捕捉技术实现的场景,该技术通过视频记录物体或人的运动。此外,这种跟踪涉及物理、几何和感知之间的复杂交互,其应用范围已超出好莱坞,扩展到军事、运动训练、医疗领域以及计算机视觉和机器人技术,使工程师能够理解和模拟真实环境中发生的动作。由于这可能是一个复杂而昂贵的过程——通常需要在物体或人身上放置标记并记录动作序列——研究人员正在努力将负担转移到神经网络上,神经网络可以从简单的视频中获取数据并在模型中再现。物理模拟和渲染方面的工作表明,该技术有望得到更广泛的应用,因为它可以描述图像中真实、连续、动态的运动,并在世界上的2D渲染和3D场景之间来回变换。然而,要做到这一点,当前的技术需要精确了解动作发生的环境条件,以及渲染器的选择,而这两者通常都不可用。
现在,麻省理工学院(MIT)和IBM的一个研究团队开发了一个经过训练的神经网络管道,可以避免这个问题,并能够推断环境的状态和发生的动作、感兴趣的对象或个人(系统)的物理特征及其控制参数。经测试,该技术在模拟刚体和可变形体的四个物理系统方面优于其他方法,这些系统在不同的环境条件下显示了不同类型的动力学和相互作用。此外,该方法允许模仿学习——从视频中预测和再现真实世界中飞行的四旋翼的轨迹。为了解决渲染域和图像差异的问题,该团队开发了一个包含神经网络的管道系统,称为“渲染不变状态预测(RISP)”网络。RISP将图像(像素)中的差异转换为系统状态(即操作环境)中的差异,使其方法对渲染配置具有普遍性和不可知性。RISP使用随机渲染参数和状态进行训练,这些参数和状态被输入到可微渲染器中,可微渲染器是一种测量像素对渲染配置(例如照明或材质颜色)的灵敏度的渲染器。这将根据已知的地面真实参数生成一组不同的图像和视频,这将允许RISP逆转该过程,从输入视频预测环境状态。此外,该团队还最小化了RISP的渲染梯度,使其预测对渲染配置的变化不那么敏感,从而使其能够学会忘记视觉外观,专注于学习动态。这是由可微渲染器实现的。
资讯来源:http://news.mit.edu/

