谷动谷力
标题: AI视频剪辑工具MorphCut:自动删除视频中的多余停顿 语气... [打印本页]
作者: sunsili 时间: 2024-1-10 16:02
标题: AI视频剪辑工具MorphCut:自动删除视频中的多余停顿 语气...
本帖最后由 sunsili 于 2024-1-10 16:13 编辑
AI视频剪辑工具MorphCut:自动删除视频中的多余停顿、语气词等
MorphCut
该产品提供了一种新颖的框架,用于平滑跳切,特别是在对话视频中。它利用视频中主体的外观,通过 DensePose 关键点和面部标志驱动的中级表示来融合其他源帧中的信息。为了实现运动,它在切割周围的端帧之间插值关键点和标志。然后使用图像转换网络从关键点和源帧合成像素。由于关键点可能包含错误,因此提出了一种跨模态注意机制,以选择和为每个关键点挑选最合适的源。通过利用这种中级表示,我们的方法可以比强视频插值基准获得更强的结果。我们在对话视频的各种跳切上展示了我们的方法,例如切除填充词、暂停,甚至随机切割。我们的实验表明,即使在对话头部旋转或剧烈移动的挑战性情况下,我们也可以实现无缝过渡。
训练方法
给定一个会说话的头像视频,我们去掉了填充物和重复的单词,平滑了由此产生的跳转剪辑,并输出了一个无缝的视频。
在训练阶段,我们随机采样源(用绿色矩形表示)和目标(用红色矩形表示)帧,并提取它们对应的 DensePose 关键点,并用面部特征点增强(为简单起见,此处未显示)。该方法将源密集关键点特征提取为关键点特征,将目标密集关键点特征提取为查询,提取源图像特征提取为特征,然后应用交叉注意力来获取查询的值,即扭曲特征。这种扭曲特征被馈送到受 Co-Mod GAN 启发的生成器中,以合成与地面实况目标帧相比的真实目标图像。为了在推理阶段应用跳切平滑,我们在跳切结束帧之间插入密集的关键点,并使用插值的关键点(黄色矩形)序列合成过渡帧。
抽象
跳切会给观看体验带来突然的、有时是不必要的变化。我们提出了一个新颖的框架,用于在说话的头部视频的背景下平滑这些跳跃剪辑。我们利用视频中其他源帧中主体的外观,将其与由 DensePose 关键点和面部地标驱动的中级表示融合在一起。为了实现运动,我们在切口周围的端帧之间插入关键点和地标。然后,我们使用来自关键点和源帧的图像转换网络来合成像素。由于关键点可能包含错误,我们提出了一种跨模态注意力方案,在每个关键点的多个选项中选择和选择最合适的来源。通过利用这种中间级表示,我们的方法可以获得比强视频插值基线更强的结果。我们在说话的头部视频中展示了我们的各种跳跃剪辑方法,例如剪辑填充词、停顿,甚至随机剪辑。我们的实验表明,我们可以实现无缝过渡,即使在具有挑战性的情况下,即说话的头部在跳跃剪辑中旋转或剧烈移动。
用于去除语气词的跳切平滑处理
给定一个输入的谈话视频,我们应用填充词检测算法来删除语气词,并手动删除不必要的停顿和其他重复词。这会导致视频中出现不自然的跳跃剪辑。然后,我们应用我们的方法来平滑跳切,以输出流利的说话视频。
基线比较
我们展示了我们的方法与最先进的慢动作帧插值方法FILM相比产生的视频过渡。我们在最右边的一栏中突出显示面部细节。请注意,FILM有严重的面部变形,尤其是当头部从一侧旋转到另一侧时。
使用面部特征点操作进行过渡控制
给定相同的跳切结束帧,我们展示了具有不同面部特征轨迹的合成过渡序列:在左侧,我们使用线性插值的面部特征点;在中间,我们使嘴巴闭合,同时保持其他面部区域与左侧相比不变;在右边,我们提供了一个面部特征轨迹,模拟正常的说话序列。
需求人群:
"适用于需要消除语气词和重复词,以及平滑跳切的视频处理场景。"
使用场景示例:
在视频编辑软件中应用,去除不必要的词和跳切,制作流畅的对话视频。
用于在线教育平台,提高视频内容的质量和观看体验。
应用于广告制作,消除不必要的停顿和词汇,打造更吸引人的视频内容。
产品特色:
消除语气词、重复词和停顿等剪切功能
平滑跳切,创建无缝过渡视频
欢迎光临 谷动谷力 (http://bbs.sunsili.com/) |
Powered by Discuz! X3.2 |