拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

站长网2024-03-19 03:09:060阅

去年5月，动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽，我们可以改变并合成自己想要的图像，比如下图中让一头狮子转头并张嘴。

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文，于上个月放出并已被 SIGGRAPH2023会议接收。相关的项目在 GitHub 上已经积累了34.5k 的 Star 量。

项目地址:https://github.com/XingangPan/DragGAN

之后，新加坡国立大学和字节跳动推出了类似的研究 ——DragDiffusion。他们利用大规模预训练扩散模型，极大提升了基于点的交互式编辑在现实世界场景中的适用性。效果如下动图所示:

尽管取得了很大的成功，但类似的拖拽方案存在两个主要缺陷，即点跟踪不准确和动作监督不完整，从而可能导致无法达到满意的拖拽效果。

为了克服这些缺陷，南京大学、腾讯的几位研究者提出了一种判别式点跟踪方法并针对动作监督采用了基于置信的潜在增强策略，构建了一个更加稳定和精确的拖拽编辑框架 ——StableDrag。

其中判别式点跟踪方法能够精确地定位更新的操纵点，提高长程操纵稳定性;基于置信的潜在增强策略能够在所有操纵步骤中，保证优化的潜在变量尽可能地高质量。

论文标题:StableDrag: Stable Dragging for Point-based Image Editing

论文地址:https://arxiv.org/pdf/2403.04437.pdf

项目地址:https://stabledrag.github.io/

得益于这些独特的设计，研究者实例化了两种类型的图像编辑模型:StableDrag-GAN 和 StableDrag-Diff。这两个模型在 DragBench 上进行了广泛的定性和定量评估，结果都显示出更加稳定的拖拽效果。

如下为 StableDrag-GAN 的更多拖拽示例。

StableDrag-Diff 的拖拽示例如下所示。

方法介绍

如图1所示，由于不精确的点跟踪和不完整的动作监督，DragGAN 和 DragDiffusion 对图像的编辑质量不高。因此，在这项工作中，本文将注意力集中在当前的拖拽技术上，以实现更稳定和更精确的图像操作。

拖拽 pipeline 如图2所示，包括判别点跟踪模块（ Discriminative PT ）和置信动作监督模块( Confident MS )。

判别点跟踪

本文提出了一种更具辨别力但简单的点跟踪算法。在本文的设计中，点跟踪模型构成卷积层的权重，并提供点分类得分作为输出。具体来说，本文建议学习一个函数

，其中 g 为卷积函数，

为当前操纵点（ handle point ） p_i 周围的局部 patch，z_i 为学习到的跟踪模型。详细流程如上图2所示。

在此过程中，跟踪点 p_i 的更新方式为:

跟踪模型 z_i 是一个大小为1× C ×1×1的卷积滤波器，其学习过程概述如图3所示。本文使用 f_i 初始化 z_i 并在以下损失的监督下更新权重:

置信动作监督

本文提出了一种基于置信度的潜在增强策略，如图2所示。首先，本文引入跟踪得分最大值即 s_i，来表示当前的监督置信度，以及置信度分数在 step-1产生增强策略的阈值。通常，当模型足够自信地识别当前状态时，本文会采用论文中等式（1）的原始动作监督。如果当前的置信度得分低于预定义的阈值，则采用初始模板进行监督。具体强化监督定义为: