可灵重大升级!新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

avatar
作者
猴君
阅读量:1

快手视频生成大模型“可灵”(Kling),作为全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测版的用户数量已突破70万大关,累计生成的视频作品更是高达700万,其中,“老照片复活”系列作品尤为引人注目,以其深邃的情感共鸣席卷网络,成为现象级话题。

可灵再进化,新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

可灵在持续创新的道路上不断加速,6月6日正式发布文本生成视频,随后又马不停蹄地推出了图生视频、视频续写等多项新功能。在世界人工智能大会(WAIC)期间,可灵再进化,迎来重大升级。新功能包括:

  • 可灵Web端上线:为用户提供新一代创意生产力平台,支持AI图像和视频以及视频编辑功能;

  • 基础模型效果升级提供更佳精细的人物面部和高清画质;

  • 图生视频支持首尾帧:允许用户通过设置首尾帧来控制视频的起始和结束;

  • 相机镜头控制功能:新增多种镜头运动控制,如旋转运镜、水平摇镜等;

  • 单次生成时长增至10s,是业内对用户开放使用可实现的最长时长。

在本届WAIC快手大模型生态论坛上,快手视觉生成与互动中心负责人万鹏飞就「可灵大模型能力亮点」和「可灵大模型技术方案」分别做了细致介绍,并分享了对视频生成未来发展趋势的观点。

图片

一、可灵大模型能力亮点

大幅度且合理的运动生成能力。可灵采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,可灵大模型不仅能够生成较大幅度的运动,且更符合客观运动规律,能够真正做到让想象力动起来。得益于更充分的模型训练,可灵的运动生成效果得到进一步提升。视频中的小猫能够灵活的转动身体,爪子和身体的摆动逼真,运动轨迹自然流畅,为我们展现了小猫憨态可掬的形象。

图片

prompt:一只小猫在温馨的房间内转动身体,形态憨态可掬

分钟级的长视频能力。可灵大模型的自研3D VAE能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频,可以生成高达1080p分辨率30fps的视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。下面是小男孩吃汉堡的生成视频,汉堡被咬出一个明显的缺口,在视频的每一帧中都清晰可见。我们还能看到小孩咀嚼汉堡的享受表情,特别是逼真的脸部肌肉动态。得益于算法和工程的深度联合优化,单次生成的视频长度从5s提升到10s。

图片

prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

能够模拟真实物理世界的特性。得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵能够生成符合物理规律的视频。得益于更充分的模型训练,可灵对复杂物理规律的建模能力有提升。在视频中,厨师握刀的手法与日常生活中的场景别无二致,在切菜的过程中还有短暂的停顿和姿势的调整,节奏变化使其更符合真实世界中日常做饭的行为习惯。

图片

prompt:一名厨师在厨房用菜刀在案板上熟练地切着洋葱

概念组合和指令响应能力强。基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的场景。得益于效果更优的文本数据和编码方案,可灵对用户提示词的响应能力有提升。在构建的虚拟场景里,浓烟的光影和细节处理使人如临其境,随后从浓烟中缓缓走出的机器人极其富有视觉冲击力,能够将心中的虚拟世界精准表达。

图片

prompt:一个高大的金属机器人从滚滚浓烟中走出来

电影级的画面生成。基于自研3D VAE,可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。视频中的特写镜头细腻地展现了小狗毛发的质感和光泽,同时还原了现实世界中小狗的眼神和动作,显得尤为生动可爱。得益于更高的训练时空分辨率,视频生成细节、构图和运镜美观性、以及光影表现得到了显著提升。

图片

prompt:一只戴眼镜的小狗在房间内看书,时不时抬头看向镜头

领先的图生视频效果。支持设置首帧和尾帧,动作自然流畅,且画质显著升级。可灵图生视频模型以卓越的图像理解能力为基础,将静态图像转化为生动的5秒精彩视频。只需上传首尾两张图片,配上创作者不同的文本输入,即生成多种多样的运动效果,让视觉创意无限延展。画面中的面条从两张静态图生成为一小段栩栩如生的视频,面条被撒上了各种调味料,这段视频不仅构建了清晰合理的逻辑线,也生动形象地展示了美味佳肴。

图片

prompt:盘子里的面条被撒上了芝士和番茄酱

优秀的视频生成可控性。得益于灵活扩展的网络架构,可灵支持对视频生成进行精准的相机镜头控制。赋予创作者前所未有的自由度与精细度,目前可灵已支持旋转运镜、垂直摇镜、水平摇镜在内的六种镜头控制方式。随着参数输入的变化,视频运动幅度将展现出更加生动、激烈的效果。在下方的视频中,一个小女孩开心地坐在草地上看书,一边往后拉远相机,一边先轻微下移,然后大幅度上移镜头。而跟随着镜头的变化,不仅展现了小女孩真切的笑容,也让我们看到了一幅生机勃勃的大自然景象。

图片

prompt:一个面带笑容的外国小女孩坐在大树下看书,镜头逐渐拉远展现出周围生机勃勃的大自然环境。

二、可灵大模型技术方案

可灵大模型呈现出的这些能力亮点,离不开技术上的洞察和创新,可灵大模型整体的技术方案如下:

1、模型设计方面

一个至关重要的步骤是进行信号的表征转换。鉴于三维视频信号中掺杂着大量的信息冗余,这些冗余对模型学习构成不利影响,因此首要任务是通过隐空间编解码技术处理这一问题。这一方法不仅可以剔除不必要的信息冗余,还能显著提升计算效率。为此,可灵团队自主研发了一种3D的VAE架构,该架构能够实现对视频数据的高效压缩,并展现出多项附加的有益特性。在网络基础架构层面,可灵采用了基于Transformer的网络框架,以执行扩散模型的复杂计算,实践验证显示,该模型展现出卓越Scaling Law特性。针对时序信息的精准建模,可灵创新性地引入了时空融合的3D注意力机制。这一机制在时间和空间两个维度上全面部署attention计算,极大地拓宽了模型的感知范围,并显著增强了其对复杂动态场景的建模能力。此外,文本的编码与处理同样不容忽视,作为信息传递的关键一环,可灵部署了专有的大语言模型(LLM),该模型对于文本信息进行编码、注入以及扩展,确保文本与视频内容的深度融合与精准映射,从而进一步提升整个系统的综合性能。

2、数据保障方面

对于大型模型而言,数据是基石,尤其是在视频处理领域,数据的规模、量级及处理的复杂性都达到前所未有的高度。为此,可灵构建了一个海量数据平台,该平台能够全流程、自动化、高效率对数据进行管理和处理,这显著地提升了数据处理效率。此外可灵团队自研了一套多维度的标签系统,用于深入理解、感知、处理和筛选视频数据,确保数据质量和分布合理,为后续模型训练奠定了坚实基础。对于视频生成模型,除了视频数据本身,精准的文本描述也是不可或缺的。可灵自研了视频Captioner模型,该模型能够生成高完整度、高准确度的视频文本描述。在效果评估模型阶段,可灵采用了数据驱动的视频质量评价方案,以指导模型迭代优化,确保模型性能稳定提升。

3、计算效率方面

视频处理的数据量和计算量相较于其他模态来说要大得多。因此,如何保证高效的计算效率成为了一个重要课题。首先,在算法层面,可灵没有采用DDPM等传统扩散模型计算方案,转而采用了从原始分布到目标分布的传输路径更短的flow-based模型,提升了训练和推理的效率。其次,在工程层面,可灵构建了一套的分布式训练集群,快手工程师对计算显存带宽进行了深度的优化,同时支持自动故障恢复,保障了训练的连续性和稳定性。最后,在训练策略方面,可灵采用了一个分阶段训练策略,这使得在有限的算力和时间下,模型能够充分利用好数据量和质的优势。

4、能力扩展方面

能力扩展方面,可灵支持各种各样可变的视频的分辨率,在输入端保障视频结构在训练过程不会被破坏,在输出端可以灵活输出各类不同的宽高比的视频,以适配不同的应用场景需求。此外,可灵天然具备视频时序延展能力,支持多种应用模式,包括视频续写、图像生视频等。正如先前所展示,可灵具备丰富的控制能力,涵盖了相机、结构、ID识别等多个维度,为用户提供了灵活多变的操作空间。

三、展望未来

展望未来,视频生成的效果和技术将持续高速进化。随着视频生成的效果逐步逼近传统图形渲染与相机拍摄,将为泛视频行业带来巨大的机遇与变革。随着效果提升与成本降低,视频内容的创作与消费界限趋于模糊,这一变化将极大地促进内容供给的多元化与视频平台生态的繁荣。更为深远的是,视频生成技术有望成为高度仿真的“世界模拟器”,为具身智能提供仿真环境,推动AI与机器人技术深度融合。生成式AI基础算法也将持续迭代升级,未来会出现综合性能更优的生成算法与网络结构。另外,多模态理解与生成技术的融合趋势也日益明显,未来统一的多模态输入输出系统将进一步推动AI技术的效果提升与应用拓展。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!