突破! 中国首个Sora级视频大模型发布

环球网2024-04-27 11:37:00 81

只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起，文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午，在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点，这也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

据了解，该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

根据现场演示的效果，Vidu能够模拟真实的物理世界，能够生成细节复杂、并且符合真实物理规律的场景，例如合理的光影效果、细腻的人物表情等。它还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。

此外，Vidu能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。

值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与Sora一样，从文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

据了解，Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

“在Sora发布后，我们发现刚好和我们的技术路线是高度一致的，这也让我们坚定地进一步推进了自己的研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后，团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/348010.html

随机主题

保时捷纯电第二弹，保时捷纯电Macan 所以你人生的第一台外设应该是？看不到武磊vs孙兴慜? 媒体人: 孙兴慜恐无法参加与中国队的比赛一点道理也不讲, 关于小米Civi4 Pro, 知道这几点就够了因“孩子随父姓”被群嘲, papi酱的回应很霸气, 网友看完拍手叫好一国有行官宣，聘任新行长舒淇宝格丽晚宴洞洞鞋穿出高级感新西部、新制造、新服务第六届西洽会开幕没想到, 5月还未结束, 33岁金晨就以这种形式翻车了郑州12岁女生校运会跑步后离世, 校方最新通报主持希然晒MSI赛事Vlog: 可以吃喝但不咋睡觉她是尼姑, 生了一个儿子, 儿子当了主席 24G+1TB跌价500元, 120倍长焦+5400mAh, 全能旗舰机也妥协了《斗破》三千雷动对萧炎多重要? 堪比天阶斗技, 被风雷阁设阵追杀降温超17度, 新冷空气酝酿, 南北大范围雨水确定, 预报: 连下3天南海交锋，外军4打2，解放军战机遭火控雷达锁定，现场惊心动魄江天化学: 公司不生产共聚聚甲醛、偏苯三酸酐(TMA)等产品江西南康给佛山下战书, 《人民日报》火速点赞, 这一战有意思了底盘革新之作——问界新M7 Max焕新版即将正式上市别不信, 甄子丹31年前就该火!银行降薪潮来袭, 如何保稳钱袋子?

最新回复(4)

馋猫李阿豹2024-04-27 22:12
引用4楼
不知道
你臉紅了耶2024-04-27 19:55
引用3楼
给我制作一段人工智能毁灭人类的场景[抠鼻]
读历史人物2024-04-27 18:12
引用2楼
数字藏品的春天什么时候来？
菜籽和短腿2024-04-27 17:10
引用1楼
什么时候开放使用