阿里巴巴正式开源通义万相Wan2.1-VACE,这是业界功用最全的视频生成与修改模型,单一模型可一起支撑文生视频、图画参阅视频生成、视频重绘、视频部分修改、视频布景延展以及视频时长延展等全系列根底生成和修改才能。
本次共开源1.3B和14B两个版别,其间1.3B版别可在消费级显卡运转,开发者可在GitHub、Huggingface及魔搭社区下载体会。
据介绍,Wan2.1-VACE支撑悉数干流输入方式,包括文本、图画、视频、Mask和操控信号,能轻松完结人物一致性、布局、运动姿势和起伏等要素的操控。
例如,Wan2.1-VACE能够根据物体参阅图或许视频帧生成一段视频,也能够终究靠抹除、部分扩展等操作,对原有视频进行从头生成,该模型还能够终究靠深度图、光流、布局、灰度、线稿等操控信号对视频进行修改。
Wan2.1-VACE还支撑恣意根底才能的自由组合,用户无需针对特定功用练习一个新的专家模型,就能够完结更杂乱的使命,极大地扩展了AI视频生成的幻想空间。
例如,将图片参阅和主体重塑功用组合,能轻松完结视频的物体替换;将图片参阅、首帧参阅、布景扩展和时长延展功用,能够将一张竖版图片变成横版视频,并且在其间参加参阅图片中的元素。
据悉,自本年2月以来,通义万相已先后开源文生视频模型、图生视频模型和首尾帧生视频模型,现在在开源社区的下载量已超330万,在GitHub上斩获超1.1w star,是同期最受欢迎的视频生成模型。