生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型：Vidu

· 2 min read

dev|worker|

生数科技与清华大学联合发布的 Vidu 视频大模型：创新与突破的先锋

在中关村论坛未来人工智能先锋论坛上，生数科技与清华大学携手发布了一款令人瞩目的视频大模型——Vidu，它是中国首个长时长、高一致性、高动态性的视频大模型，更被视为国内首个达到 Sora 级别的视频大模型。

据官方消息，这款模型的核心技术 U-ViT 架构是由团队在 2022 年 9 月提出的，比 Sora 采用的 DiT 架构还要早，它是全球首个将 Diffusion 与 Transformer 融合的架构，充分展现了团队的创新能力。而在 2023 年 3 月，团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser，率先完成了 U-ViT 架构的大规模可扩展性验证，这无疑是一项重要的成就。

Vidu 模型的结构极具特色，它融合了 Diffusion 与 Transformer 技术，创新性地开发出了 U-ViT 架构。其视频生成能力更是令人惊叹，能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。在官方资料中，有一个让人印象深刻的视频示例，内容是“画室中的一艘船驶向镜头”，其中船和海浪的逼真效果让人仿佛身临其境。

Vidu 不仅能够模拟真实物理世界，还充满了丰富的想象力，支持多镜头生成和高时空一致性。在技术先进性方面，Vidu 的 U-ViT 架构是全球首个将 Diffusion 与 Transformer 融合的架构，早于其他类似模型所使用的技术，这是一项开创性的成就。同时，团队开源的基于 U-ViT 架构的多模态扩散模型 UniDiffuser 也是全球首个此类模型，验证了 U-ViT 架构的大规模可扩展性，为整个行业的发展做出了重要贡献。

软件工具资料已经打包好!!

👆🔼**领取添加VX: wenhaofree **🔼👆

SCR-20240426-jtrc

官网：https://www.shengshu-ai.com/home

详情链接：https://wenhaofree.com/vidu

软件工具资料已经打包好!!​

软件工具资料已经打包好!!