可灵重大升级！新增Web端上线、首尾帧控制、单次生成视频时长增加至10s！_业界新闻

发布时间:2024-07-17 21:45

阅读量:1

快手视频生成大模型“可灵”（Kling），作为全球首个真正用户可用的视频生成大模型，自面世以来，凭借其无与伦比的视频生成效果，在全球范围内赢得了用户的热烈追捧与高度评价。截至目前，申请体验其内测版的用户数量已突破70万大关，累计生成的视频作品更是高达700万，其中，“老照片复活”系列作品尤为引人注目，以其深邃的情感共鸣席卷网络，成为现象级话题。

可灵再进化，新增Web端上线、首尾帧控制、单次生成视频时长增加至10s！

可灵在持续创新的道路上不断加速，6月6日正式发布文本生成视频，随后又马不停蹄地推出了图生视频、视频续写等多项新功能。在世界人工智能大会（WAIC）期间，可灵再进化，迎来重大升级。新功能包括：

可灵Web端上线：为用户提供新一代创意生产力平台，支持AI图像和视频以及视频编辑功能；
基础模型效果升级：提供更佳精细的人物面部和高清画质；
图生视频支持首尾帧：允许用户通过设置首尾帧来控制视频的起始和结束；
相机镜头控制功能：新增多种镜头运动控制，如旋转运镜、水平摇镜等；
单次生成时长增至10s，是业内对用户开放使用可实现的最长时长。

在本届WAIC快手大模型生态论坛上，快手视觉生成与互动中心负责人万鹏飞就「可灵大模型能力亮点」和「可灵大模型技术方案」分别做了细致介绍，并分享了对视频生成未来发展趋势的观点。

一、可灵大模型能力亮点

大幅度且合理的运动生成能力。可灵采用了3D时空联合注意力机制，能够更好地建模视频中的复杂时空运动。因此，可灵大模型不仅能够生成较大幅度的运动，且更符合客观运动规律，能够真正做到让想象力动起来。得益于更充分的模型训练，可灵的运动生成效果得到进一步提升。视频中的小猫能够灵活的转动身体，爪子和身体的摆动逼真，运动轨迹自然流畅，为我们展现了小猫憨态可掬的形象。

prompt：一只小猫在温馨的房间内转动身体，形态憨态可掬

分钟级的长视频能力。可灵大模型的自研3D VAE能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频，可以生成高达1080p分辨率30fps的视频，无论是浩瀚壮阔的宏大场景，还是细腻入微的特写镜头，都能够生动呈现。下面是小男孩吃汉堡的生成视频，汉堡被咬出一个明显的缺口，在视频的每一帧中都清晰可见。我们还能看到小孩咀嚼汉堡的享受表情，特别是逼真的脸部肌肉动态。得益于算法和工程的深度联合优化，单次生成的视频长度从5s提升到10s。

prompt：一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

能够模拟真实物理世界的特性。得益于自研模型架构及Scaling Law激发出的强大建模能力，可灵能够生成符合物理规律的视频。得益于更充分的模型训练，可灵对复杂物理规律的建模能力有提升。在视频中，厨师握刀的手法与日常生活中的场景别无二致，在切菜的过程中还有短暂的停顿和姿势的调整，节奏变化使其更符合真实世界中日常做饭的行为习惯。

prompt：一名厨师在厨房用菜刀在案板上熟练地切着洋葱

概念组合和指令响应能力强。基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的强大能力，可灵能够将用户丰富的想象力转化为具体的画面，虚构真实世界中不会出现的场景。得益于效果更优的文本数据和编码方案，可灵对用户提示词的响应能力有提升。在构建的虚拟场景里，浓烟的光影和细节处理使人如临其境，随后从浓烟中缓缓走出的机器人极其富有视觉冲击力，能够将心中的虚拟世界精准表达。

prompt：一个高大的金属机器人从滚滚浓烟中走出来

电影级的画面生成。基于自研3D VAE，可灵能够生成1080p分辨率的电影级视频，无论是浩瀚壮阔的宏大场景，还是细腻入微的特写镜头，都能够生动呈现。视频中的特写镜头细腻地展现了小狗毛发的质感和光泽，同时还原了现实世界中小狗的眼神和动作，显得尤为生动可爱。得益于更高的训练时空分辨率，视频生成细节、构图和运镜美观性、以及光影表现得到了显著提升。

prompt：一只戴眼镜的小狗在房间内看书，时不时抬头看向镜头

领先的图生视频效果。支持设置首帧和尾帧，动作自然流畅，且画质显著升级。可灵图生视频模型以卓越的图像理解能力为基础，将静态图像转化为生动的5秒精彩视频。只需上传首尾两张图片，配上创作者不同的文本输入，即生成多种多样的运动效果，让视觉创意无限延展。画面中的面条从两张静态图生成为一小段栩栩如生的视频，面条被撒上了各种调味料，这段视频不仅构建了清晰合理的逻辑线，也生动形象地展示了美味佳肴。

prompt：盘子里的面条被撒上了芝士和番茄酱

优秀的视频生成可控性。得益于灵活扩展的网络架构，可灵支持对视频生成进行精准的相机镜头控制。赋予创作者前所未有的自由度与精细度，目前可灵已支持旋转运镜、垂直摇镜、水平摇镜在内的六种镜头控制方式。随着参数输入的变化，视频运动幅度将展现出更加生动、激烈的效果。在下方的视频中，一个小女孩开心地坐在草地上看书，一边往后拉远相机，一边先轻微下移，然后大幅度上移镜头。而跟随着镜头的变化，不仅展现了小女孩真切的笑容，也让我们看到了一幅生机勃勃的大自然景象。

prompt：一个面带笑容的外国小女孩坐在大树下看书，镜头逐渐拉远展现出周围生机勃勃的大自然环境。

二、可灵大模型技术方案

可灵大模型呈现出的这些能力亮点，离不开技术上的洞察和创新，可灵大模型整体的技术方案如下：

1、模型设计方面

一个至关重要的步骤是进行信号的表征转换。鉴于三维视频信号中掺杂着大量的信息冗余，这些冗余对模型学习构成不利影响，因此首要任务是通过隐空间编解码技术处理这一问题。这一方法不仅可以剔除不必要的信息冗余，还能显著提升计算效率。为此，可灵团队自主研发了一种3D的VAE架构，该架构能够实现对视频数据的高效压缩，并展现出多项附加的有益特性。在网络基础架构层面，可灵采用了基于Transformer的网络框架，以执行扩散模型的复杂计算，实践验证显示，该模型展现出卓越Scaling Law特性。针对时序信息的精准建模，可灵创新性地引入了时空融合的3D注意力机制。这一机制在时间和空间两个维度上全面部署attention计算，极大地拓宽了模型的感知范围，并显著增强了其对复杂动态场景的建模能力。此外，文本的编码与处理同样不容忽视，作为信息传递的关键一环，可灵部署了专有的大语言模型（LLM），该模型对于文本信息进行编码、注入以及扩展，确保文本与视频内容的深度融合与精准映射，从而进一步提升整个系统的综合性能。

2、数据保障方面

对于大型模型而言，数据是基石，尤其是在视频处理领域，数据的规模、量级及处理的复杂性都达到前所未有的高度。为此，可灵构建了一个海量数据平台，该平台能够全流程、自动化、高效率对数据进行管理和处理，这显著地提升了数据处理效率。此外可灵团队自研了一套多维度的标签系统，用于深入理解、感知、处理和筛选视频数据，确保数据质量和分布合理，为后续模型训练奠定了坚实基础。对于视频生成模型，除了视频数据本身，精准的文本描述也是不可或缺的。可灵自研了视频Captioner模型，该模型能够生成高完整度、高准确度的视频文本描述。在效果评估模型阶段，可灵采用了数据驱动的视频质量评价方案，以指导模型迭代优化，确保模型性能稳定提升。

3、计算效率方面

视频处理的数据量和计算量相较于其他模态来说要大得多。因此，如何保证高效的计算效率成为了一个重要课题。首先，在算法层面，可灵没有采用DDPM等传统扩散模型计算方案，转而采用了从原始分布到目标分布的传输路径更短的flow-based模型，提升了训练和推理的效率。其次，在工程层面，可灵构建了一套的分布式训练集群，快手工程师对计算显存带宽进行了深度的优化，同时支持自动故障恢复，保障了训练的连续性和稳定性。最后，在训练策略方面，可灵采用了一个分阶段训练策略，这使得在有限的算力和时间下，模型能够充分利用好数据量和质的优势。

4、能力扩展方面

能力扩展方面，可灵支持各种各样可变的视频的分辨率，在输入端保障视频结构在训练过程不会被破坏，在输出端可以灵活输出各类不同的宽高比的视频，以适配不同的应用场景需求。此外，可灵天然具备视频时序延展能力，支持多种应用模式，包括视频续写、图像生视频等。正如先前所展示，可灵具备丰富的控制能力，涵盖了相机、结构、ID识别等多个维度，为用户提供了灵活多变的操作空间。

三、展望未来

展望未来，视频生成的效果和技术将持续高速进化。随着视频生成的效果逐步逼近传统图形渲染与相机拍摄，将为泛视频行业带来巨大的机遇与变革。随着效果提升与成本降低，视频内容的创作与消费界限趋于模糊，这一变化将极大地促进内容供给的多元化与视频平台生态的繁荣。更为深远的是，视频生成技术有望成为高度仿真的“世界模拟器”，为具身智能提供仿真环境，推动AI与机器人技术深度融合。生成式AI基础算法也将持续迭代升级，未来会出现综合性能更优的生成算法与网络结构。另外，多模态理解与生成技术的融合趋势也日益明显，未来统一的多模态输入输出系统将进一步推动AI技术的效果提升与应用拓展。