谷歌提出生成式图像动力学:让静态图片动起来

站长网2023-09-18 10:30:490阅

谷歌团队最新提出「生成图像动力学」，这项研究提出了一种基于图像空间的场景动力学先验模型。该模型可以将单张静态图片转换成无缝循环视频，或者用于与图片中的对象进行交互。

项目地址：https://generative-dynamics.github.io/#demo

研究人员首先从包含自然振荡运动的真实视频中，如树叶摇曳、花朵飘动、蜡烛跳动和衣物飘扬等，提取运动轨迹。然后利用这些轨迹数据训练模型学习图像动力学的先验知识。对于任意输入图片，模型可以预测每个像素的长期运动表示，作者称之为神经随机运动纹理。这些表示随后转换为密集的运动轨迹，可生成整段视频。配合图像渲染模块，这些轨迹可以用于各种下游应用，如将静态图片转换成无缝循环视频，或者让用户可以与图片中的对象进行交互。

利用神经随机运动纹理，研究人员可以模拟对象对用户交互的响应。用户可以在图片中拖动一个点，然后释放手指，场景会根据点的位置和方向产生相应运动。用户还可以点击选择不同的图片进行交互。

通过调整运动纹理的振幅，研究人员可以放大或缩小物体的运动效果。他们还可以通过插值预测的运动纹理来生成慢动作视频。

该方法自动将单张静态图片转换成无缝循环视频，具有广阔的应用前景。它为创作更加逼真的数字内容提供了可能，如将电影片段的单帧转换为可交互的动态场景。该研究为基于单张图片合成视频开辟了新的思路。

特点:

（1）从视频中提取自然运动轨迹，训练获得图像动力学先验模型

（2）对静态图片预测像素级长期运动表示，即神经随机运动纹理

（3）将运动纹理转换为密集运动轨迹，合成动态视频

（4）支持用户与图片中的对象交互

（5）调整运动纹理振幅来控制运动效果

（6）通过插值产生慢动作视频

谷歌提出生成式图像动力学让静态图片动起来

0000

评论列表

共(0)条

谷歌提出生成式图像动力学:让静态图片动起来

年花费近2000亿！谷歌只做了一件事：称对用户有利

中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

互联网企业家，正是拼搏好时候

Adobe推类ChatGPT助手AI Assistant 并集成到PDF中

南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频