跳到主要内容

生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型:Vidu

· 阅读需 2 分钟
文浩Marvin

image-20210905085929546

生数科技与清华大学联合发布的 Vidu 视频大模型:创新与突破 的先锋

在中关村论坛未来人工智能先锋论坛上,生数科技与清华大学携手发布了一款令人瞩目的视频大模型——Vidu,它是中国首个长时长、高一致性、高动态性的视频大模型,更被视为国内首个达到 Sora 级别的视频大模型。

据官方消息,这款模型的核心技术 U-ViT 架构是由团队在 2022 年 9 月提出的,比 Sora 采用的 DiT 架构还要早,它是全球首个将 Diffusion 与 Transformer 融合的架构,充分展现了团队的创新能力。而在 2023 年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,这无疑是一项重要的成就。

Vidu 模型的结构极具特色,它融合了 Diffusion 与 Transformer 技术,创新性地开发出了 U-ViT 架构。其视频生成能力更是令人惊叹,能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。在官方资料中,有一个让人印象深刻的视频示例,内容是“画室中的一艘船驶向镜头”,其中船和海浪的逼真效果让人仿佛身临其境。

Vidu 不仅能够模拟真实物理世界,还充满了丰富的想象力,支持多镜头生成和高时空一致性。在技术先进性方面,Vidu 的 U-ViT 架构是全球首个将 Diffusion 与 Transformer 融合的架构,早于其他类似模型所使用的技术,这是一项开创性的成就。同时,团队开源的基于 U-ViT 架构的多模态扩散模型 UniDiffuser 也是全球首个此类模型,验证了 U-ViT 架构的大规模可扩展性,为整个行业的发展做出了重要贡献。

软件工具资料已经打包好!!

👆🔼领取添加VX: wenhaofree 🔼👆

SCR-20240426-jtrc

官网https://www.shengshu-ai.com/home

详情链接https://wenhaofree.com/vidu

Loading Comments...