豆包这玩意谁研究的呢, 这视频模型真有点攒劲

差评XPIN2024-09-25 10:52:45 112

有一说一，哥们是真不知道这个月什么情况。

这些个厂商们就像扎堆看了同一本黄历一样，都赶着这个月搞事情。

12 号好几家连着开发布会咱就不多说了，上周又是参加了一堆大会，看了各种大模型纷纷上新，给哥们都逛累了。

结果到了今天，您猜怎么着，字节又官宣了他家的新 AI ，也就是他家豆包这次支持可以视频生成了，而且效果极其强横。

也就是说，憋了这么久，这个月底出场的字节开始上菜了，而且一来就是硬菜。

口说无凭，直接来给大家看效果：

比如这个官方演示的 “ 红尘做伴活的潇潇洒洒 ” 场景，这视频里多人、复杂表情的表现力可以说相当自然了，虽然是马丁老爷子的老粉丝，我也只能说这段权游味是相当重。

也就是这玩意只有 10 秒而且慢的一匹，不然真就给它骗过去当成影视片段了。

还有这段，骑火箭的男人冲向世界最高城礼堂引发大爆炸，这段分镜，前后镜头的画风一致性都很连贯；中间那个男人紧闭双眼紧张赴死的镜头也特灵魂，画面感拉满了。。。

不过这玩意你要光看官方视频吧，好像感受不到它特别牛的地方，有时候这些AI的宣传资料就跟方便面外包装一样，看上去是一回事，拆开以后又是另一回事。

而且视频生成这个上面， p 图微调的事也不是没有过，还有的视频大模型光放宣传片，到现在也不让大家上手用，跟扇贝似的都玩成期货了。

所以尽管看完这些演示视频以后，我们觉得豆包可能真有两下子，但到底货对不对板，咱还是得上手试一试才知道。

这不，那边发布会一结束，世超第一时间就薅来了这个 PixelDance（像素跳动）模型的内测，先安排上咱们 AI 测评的传统保留项目，有请我司老员工火锅给大伙儿亮个相。

喂给模型一张火锅的照片，再输入提示词 “ 狗狗站起，叼起身边的娃娃离开画面 ” 。

按照我们以往用火锅测评一些视频模型的经验，不出 2 秒，锅哥的身体和脸就会开始变形，之前甚至还有过把火锅变成拉布拉多的案例。。

但你猜怎么着？

这次的视频，几乎没有出现太多画面抖动、掉帧和闪烁变形的情况。

火锅起身的动作一气呵成，仔细看它把兔子玩偶拽过来的瞬间，玩偶耳朵的抖动，脚往下踩的时候垫子上的凹陷，这些细节大伙儿品品，火锅来了都得直呼：稳啊老哥！

如果不是后面几秒火锅的毛发纹理露出了破绽，这视频能打个 9 分吧。

接着，我们又试了让不少视频生成模型屡战屡败的光影效果。

提示词 “ 摩托车飞速行驶在道路上，街景迅速后退 ”

街景变化流畅，光线的明暗变化也没啥违和感，特别是大楼灯光和地板上的倒影都一一对应上了。

非要挑毛病的话，就是从对向开过来的车，画面没太控制好。

再整个经典的吃播，这回的提示词是 “ 正对镜头的男人张嘴吃下筷子上的食物 ” 。描述相对比较精确，基本就是让模型指哪打哪。

而 PixelDance 模型也确实没让我们失望，拿筷子的动作很熟练，食物是真吃进了嘴里，面部也没有因为咀嚼的动作而变形。即使提示词里没有 cue 到后面的一群人，但模型还是让大伙儿都动了起来。

就是吧，这嚼东西的动作是不是有点忒刻意了。。。

其实测到这里，我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些，咱还是多试几次。

来看这张世超随手拍下的晚霞，提示词是 “ 远处的天空，飞来一条黑色的龙，距离镜头越来越近 ” ，稍微复杂了那么一丢丢。

后面的天空、一排房子、往镜头飞来的黑龙，要素基本齐全，镜头还会慢慢仰拍跟随。

不过原本照片左下角应该是桥边的栅栏，不知道是不是因为太黑，导致模型没识别出来，小小变形了一下。

还有这个编辑部同事下班整点小麦果汁的视频，最让世超震惊的，就是杯子里 8+1 的效果。

因为碰杯导致的晃动、还有手部动作让液体往右边倾斜，好家伙，哥们好像真找到一个理解物理规律的模型了。。

而且手臂的屈伸、关节的活动，似乎也是符合人体生理构造的。

不过瑕疵也不是没有，比如手里的酒喝着喝着，突然就喂到了隔壁同事嘴里，桌面的杯垫不知道咋回事就变成一张纸了。

相信看到这，大伙儿心里对豆包这个 PixelDance 模型已经有了基本的评判。

虽说还达不到炸裂的程度，但也肯定算得上是第一梯队了，而且 PixelDance 模型在画面稳定性、一致性上，也确实堪称独步。

不过对世超来说，其实并不是非常出乎意料。

主要其实不仅是我们，很多人对豆包在视频能力上的预期都挺高的。

虽然慢了一丢丢，但背靠视频行业出身的抖音，再加上对基础大模型的投入，豆包想依靠这些优势来追迎头赶上，实际也是符合大家认知的。

换句话说，豆包做出这个本身就意料之中，更别说人家掏出来的东西还明显是第一档。

不过嘛，字节在这个时候掏出豆包视频模型，其实挺及时的，刚好踩在视频大模型发展的节点上。

光是今年， 6 月份即梦 AI 就在 AIGC 短剧《三星堆：未来启示录》中亮相了， 7 月 13 日快手也上线了 AIGC 短剧《山海奇镜》；

而在影视圈， AI 制作的声量也被喊的越来越响，前有 AI 还原 27 岁成龙的《传说》，后有暑期档的漫改电影《异人之下》，这也意味着视频生成大模型和影视行业某种意义上算双向奔赴。

东吴证券测算，国内 AI 视频潜在的行业空间可能达到 5800 亿元人民币以上，而在全 AI 模式下，影视剧的制作成本相较于传统模式，成本能降低超过 95% 。

但这种趋势也会带来新的问题，比如模型训练需要的素材得更真实，那这些视频素材可能会有版权和隐私安全的问题。

另一方面，影视级视频生成模型也需要 AI 厂商本身有影视相关的经验，比如这次的豆包，就综合了剪映等专业剪辑和调色软件的经验，来做出更接近影视的光影、色彩效果。

其他视频生成模型如果要在这方面继续进步，可能也需要和影视行业联系更加紧密才行。

总之，豆包这波交出的卷子值得一个高分，但对于视频模型来说这还远远不是终点，期待国产大模型接下来的表现。

顺便， Sora 怎么还不出来吱个声啊？再不给用黄花菜都要凉了。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/1270016.html

0

随机主题

梦一、梦八、现役美国男篮外加南斯拉夫男篮同场竞技！业内人士点评中超：观赏性提高，但节奏很慢，没接近现代足球！传媒板块跌幅扩大, 新华都触及跌停悬念升级, 辽篮夺冠11人合同到期, 5人大概率离队, 郭少委曲求全现在你明白，是怎么储存数据的了吗？历史重演？海港外援不满被换下：当场与教练组发生“内讧”！球王待遇！超远任意球还得2人堵门，盐湖城为了防梅西真的是绞尽脑汁 700多能买到这么顶顶内存？阿斯加特联名华硕实测！外媒: 高通的差距拉大了成都: 6月起将对骑车看手机行为进行处罚塞拉利昂总统出席中铁十局唐克里里铁矿项目主体竣工仪式如何让爱车实现无线carplay功能？南海交锋，外军4打2，解放军战机遭火控雷达锁定，现场惊心动魄 TVB港剧推荐! 值得N刷的三部经典武侠剧!他是公安部第三任部长, 59岁自杀, 两位公安部副部长受牵连被审查最大续航530km, 吉利银河E5动力曝光, 竞争比亚迪元UP?乳企一季度降速后市场开始回暖未来增长依然要靠技术内卷别不信, 甄子丹31年前就该火!重磅! 加拿大启动偏远和法语社区移民试点! 地区扩大到15个轻卡房车有三个很大缺点！还有三个很大优势！怎么抉择？好! 3.5目, 杨鼎新, 硬气, 24强力斩中国00后名将强势晋级!

最新回复(0)