微软亚洲研究院最近发表了最新论文。介绍了所谓的最新VASA-1模型。只需要一张静态肖像图片就可以让图中的人物自动说话。这项技术其实已经面世了。只不过现在还不成熟。
而VASA-1模型就弥补了这项技术方面的一些缺点。首先是在表情细节方面。这款模型能模拟是非常自然的。而且情绪表情能和唇部进行同步。最重要的是通过VASA-1模型做出来的视频基本上是没有人工痕迹的。如果不是玩梗。那么很难分辨出来。
但是这样的一个顶尖模型并不是十全十美的。首先就有一个最大的缺点就是在处理头发方面。这种非必要性的因素目前这款模型还是无法妥善处理,不过比起来其他同类型的AI来说。这款模型做出来的视频显然更加优秀。
而且这款模型能做到的地步远远不止于此。甚至它还可以生成动态短视频。比如我们只需要一张张学友的照片和张学友唱歌的音频。就可以完美的呈现出来一个完整的短视频。当然,这种行为是不可取的。毕竟还是侵犯了别人的肖像权的。
但是显然微软没有这方面的顾忌,不仅使用了别人的肖像权。还使用了意大利蒙娜丽莎的画像进行了AI生成。咱这个脑子是完全想象不到蒙娜丽莎唱饶舌到底是个什么画面。而且微软实在是太大胆了。真的不怕意大利举国吐槽你们啊!
这款模型除了支持在线生成,还支持离线。在离线模式下可以生成45FPS,分辨率为512*512的短视频。如果这还不够惊艳你的话!这款模型还支持在线直播!而还能达到40FPS。延迟才仅仅170ms。而如果想要达到这种效果的话。只需要在电脑上加装一台RTX4090显卡就可以做到了。
这种事情对于整个短视频行业,甚至直播行业都有着深远的影响。不得不说这种简单的操作如果真的应用到现实上。估计国内的那些抖音用户们真的会把这款模型给玩出来花。当然,目前这款模型距离大规模投入使用还有一段时日。不过大家也不要太不当回事了。
个人观点:前有让古人说话,今有蒙娜丽莎唱绕舌。祖宗辈的人算是让你们玩明白了。小编觉得现在科技发展的太厉害了。而且有心之人也会拿这种视频去做坏事的。也希望大家警惕,不知道各位对于这种情况如何看待呢?欢迎评论区留言讨论!!
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/282097.html