生数科技与清华大学联合发布的 Vidu 视频大模型:创新与突破 的先锋
在中关村论坛未来人工智能先锋论坛上,生数科技与清华大学携手发布了一款令人瞩目的视频大模型——Vidu,它是中国首个长时长、高一致性、高动态性的视频大模型,更被视为国内首个达到 Sora 级别的视频大模型。
据官方消息,这款模型的核心技术 U-ViT 架构是由团队在 2022 年 9 月提出的,比 Sora 采用的 DiT 架构还要早,它是全球首个将 Diffusion 与 Transformer 融合的架构,充分展现了团队的创新能力。而在 2023 年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,这无疑是一项重要的成就。
Vidu 模型的结构极具特色,它融合了 Diffusion 与 Transformer 技术,创新性地开发出了 U-ViT 架构。其视频生成能力更是令人惊叹,能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。在官方资料中,有一个让人印象深刻的视频示例,内容是“画室中的一艘船驶向镜头”,其中船和海浪的逼真效果让人仿佛身临其境。
Vidu 不仅能够模拟真实物理世界,还充满了丰富的想象力,支持多镜头生成和高时空一致性。在技术先进性方面,Vidu 的 U-ViT 架构是全球首个将 Diffusion 与 Transformer 融合的架构,早于其他类似模型所使用的技术,这是一项开创性的成就。同时,团队开源的基于 U-ViT 架构的多模态扩散模型 UniDiffuser 也是全球首个此类模型,验证了 U-ViT 架构的大规模可扩展性,为整个行业的发展做出了重要贡献。
软件工具资料已经打包好!!
👆🔼领取添加VX: wenhaofree 🔼👆