科技云报道: Sora阴影之下, 焦虑的中国AI

科技云报道2024-04-15 13:21:48 83

科技云报道原创。

“跟不上的可能就要被淘汰了。”看到Sora演示视频后，从业10多年的动画制作师黄斌得出了这样的判断。

随着影视业失业潮呼声渐起，Sora的诞生也给中国AI行业带来了巨大的焦虑。

360集团创始人周鸿祎认为，Sora模型展现出了超越当前中国同类产品的性能和技术水平，这不仅体现在Sora可能实现通用人工智能（AGI）的时间表上，还体现在其实际应用效果和创新能力上。

更有甚者，网上流传着“Sora的诞生是牛顿时刻”的说法，认为Sora代表了新一轮产业革命的兴起。

事实上，国内在经过“百模大战”之后，才刚刚在文本模型上取得显著成果，达到或超过GPT-3.5的水平，并正朝着GPT-4的方向努力追赶。

但Sora的诞生，展示了OpenAI在多模态模型而非单一文本领域的突破性进展，让国内AI厂商追上甚至超越OpenAI，几乎成了不可能完成的任务。

由此不少网友对中国AI发出质问：

为什么Sora没有诞生在中国？中国跟美国的AI差距越来越大，Sora这波国内慢了十年吧？永远都是在追赶路上，为啥没有原创？

在一句句灵魂版的拷问中，中国AI厂商集体陷入了沉默。

那么，在Sora这样的多模态大模型上，中美到底有多大差距？追赶的难点在哪儿？在种种限制之下，中国是否有自己的优势？

中美AI差距几何？

尽管OpenAI承认Sora仍处于开发的早期阶段，需要进一步完善，但业界已形成一个共识——Sora的推出标志着生成人工智能领域的一个重要里程碑。

这是因为Sora不仅仅是一个文生视频的工具，更是AGI的一个关键节点，它验证了一条通向AGI的可行技术路线。

和之前的GPT-3一样，Sora再次验证了Scaling Law可以在这个技术方向上继续发挥作用实现涌现。

而这背后，不仅是惊人的资本和算力支持的结果，更是通过无数工程实验试错和强大技术力量支持的结果。

不少人推断，OpenAI手里应该已经有一个基本完整的多模态GPT-5，可以根据需要随时释放其中的某一部分打击对手，或者引导舆论。

360集团创始人周鸿祎更是直接断言，Sora的出现，意味着AGI（人工通用智能）的实现将从10年缩短到1年。

事实上，在Sora面前，无论是现有的顶级AI模型如Pika、Runway等，还是在多模态AI上有投入的国内厂商，基本上都被“吊打”了。

这也侧面反映出中美在AI技术研发深度和资源投入上的差距。

首先，门槛来自算力。

虽然有学者认为Sora只是一个大约30亿参数的模型，训练成本并没有想象的高，但视频数据本身的处理、标注等成本，加上长视频在推理阶段注定的巨大token数量和算力消耗，显然对任何公司都是难以承受的挑战。

即便Sora真的只有30亿参数，视频分析对算力的消耗应该也是远远超过一个千亿模型的。在国内GPU被卡脖子之后，算力是一个巨大的挑战。

其次，是高质量的数据。

根据OpenAI发布的技术报告，Sora强大能力归功于两点：其一是使用了基于Transformer的扩散模型（Diffusion Model）；其二是将不同类型视觉数据转化为统一格式——像素块（patch），从而能利用数量庞大、质量过硬且算力性价比高的数据。

业内人士认为，数据质量和数量上的显著优势，很可能是Sora成功的最关键因素之一。

在算力方面，虽然OpenAI训练Sora模型使用的GPU卡数量并非无法企及，但其他公司在具备足够硬件资源的情况下，仍然难以复制OpenAI的成功，主要瓶颈还是在于如何获取和处理大规模高质量的视频数据。

2022年，OpenAI曾宣布以创新方法来训练AI模型，省去标注大量资料的训练过程。

据报道，OpenAI所公布的视频预训练模型（VPT），让AI学会了在《我的世界》里从头开始造石镐。

研究人员首先收集一波数据标注外包们玩游戏的数据，其中包含视频和键鼠操作的记录。

然后，利用这些数据制作逆动力学模型（IDM），从而推测出视频里每一步在进行的时候，键鼠都是怎么动的。这样只需比原来少很多的数据就可以实现目的。

这项研究发表于2022年6月，同时文中还注明这个工作已经进行了一年之久，也就是说，OpenAI至少从2021年起就开始进行这项研究。

Logenic AI联合创始人李博杰认为，OpenAI的先发优势决定了早期的数据壁垒，对于后进入市场的公司来说，增加了追赶的难度。

“即使是谷歌这样全球数据量最大的公司，在训练大模型时，训练数据也未必能比OpenAI更好”，李博杰表示。

相比之下，国内公司在数据上的积累和利用上也存在一定差距：一方面，由于政策变化和其他限制，后来者可能无法获取之前可用的一些关键数据；另一方面，随着AI生成内容越来越多地充斥互联网，原始的真实世界数据被“污染”，使得获取高质量、无偏见的训练数据更加困难。

最后，是创新的训练方法。

Sora实现了将Transformer和扩散模型结合的创新，首先将不同类型的视觉数据转换成统一的视觉数据表示（视觉patch），然后将原始视频压缩到一个低维潜在空间，并将视觉表示分解成时空patch（相当于Transformer token），让Sora在这个潜在空间里进行训练并生成视频。

接着做加噪去噪，输入噪声patch后，Sora通过预测原始“干净”patch来生成视频。

OpenAI发现，训练计算量越大，样本质量就会越高，特别是经过大规模训练后，Sora展现出模拟现实世界某些属性的“涌现”能力。

总的来说，Sora是好的架构+好的数据，然后把模型做大，达到量变到质变。

尽管Sora在方案设计上大部分是已有的技术，但能够做出惊艳效果的也只有Sora，这也说明在训练过程中有很多训练技巧的问题要解决。

中国AI厂商能否追赶OpenAI？

Sora的技术突破让AI焦虑在国内蔓延开来，但中国AI并非完全无招架之力。在Sora出现并占据大众视野之前，国内也曾有多家上市公司在多模态AI方面展开过布局。

2023年12月18日，东方证券在一份研报中提及，国内的海康威视、大华股份、萤石网络等视频分析行业领先厂商，纷纷投入到多模态大模型研究和行业应用落地进程。

与此同时，百度、阿里、腾讯、华为、字节跳动等大厂也都布局了多模态基础大模型。

据不完全统计，2023年12月至今三个月内，已有包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信等在内的十余家A股公司，在投资者互动平台披露过视频生成模型领域的业务情况。

尽管目前国内厂商呈现的“文生视频”效果远不如Sora，但Sora所用到的基础模型LLM、文生图模型DALL·E 3、大规模视频数据集、AI算力体系、大模型开发工具栈等核心基础设施，中国都已经具备。

比如原创的基础大语言模型文心一言、讯飞星火、BAICHUAN等，以及文生图模型文心一格、腾讯混元等，加上过去一年大模型基础设施的突飞猛进，有能力和条件支持中国AI修成正果，在视频生成赛道再现类似ChatGPT式的成功。

腾讯研究院资深专家王鹏认为，Sora的发布进一步明确了DiT（=VAE编码器+ViT+DDPM+VAE解码器）是多模态AI的可行方向，中国AI大厂仍然有可能以现有资源在一年左右接近Sora目前的水平。

中国AI的机会

事实上，不仅是技术代际差异并没有想象中的那么大，视频生成模型走向行业的长跑才刚刚开始。大模型的价值需要商业化来证明，Sora也不例外。

首先，相比“人人皆可上手”的大语言模型，视频生成模型的应用门槛更高，受众群体更小。目前OpenAI仅开放给创作者使用，而非像ChatGPT那样开放给大众。

不难看到，视频生成模型从研发到落地，整个过程会更加缓慢，应用潜力与商业出口还有待探索。

其次，Sora虽然强大，但成本确实是一个现实问题。

有人估算，Sora生成一条视频的成本在几美元到几十美元不等，如果普及到大众使用，成本需要降到目前的1%才能接受。

降低成本的同时提高生成质量和逻辑连贯性，是亟待解决的关键挑战。

同时，考虑到无法解决“幻觉”的问题，要想生成真正可控可用的视频，短期内成本高昂。

这些局限性，都为中国AI产学各界留下了较长的追赶窗口期。

目前，Sora能够激活多大的商业价值尚不明确，但是利用大模型找应用场景却是中国市场的优势所在。

中国拥有丰富的行业和场景，如果中国AI厂商能为垂直的行业用户解决具体的场景问题，打磨好工具，做好视频生成模型的提示词工程，以便非专业背景的广大行业用户们上手使用，那么在特定领域超过GPT-4甚至是GPT-5的可能性是非常大的。

不仅如此，中国AI厂商也可以在Sora等大模型的基础上，做进一步的应用创新，例如在Sora之上能够提供更复杂的视频剪辑能力、革新医疗教学与模拟训练等，从而率先探索出商业化之路。

结语

Sora作为人工智能视频生成技术的重大突破，显示了中美之间存在显著的技术差距。这对于中国科技界而言，既是警醒也是鞭策。在承认现实差距的同时，中国AI也不必妄自菲薄，审视自我、调整战略、奋起直追，抓住机会窗口，才是弯道超车的必由之路。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/225457.html

随机主题

M4版iPadPro｜苹果发布会上没有说的细节保时捷纯电第二弹，保时捷纯电Macan 长安第三代CS75 PLUS 智电iDD 20GB+256GB+1TB扩展, 顶配跌至999元, 蓝厂5G手机售价再创新低传媒板块跌幅扩大, 新华都触及跌停两将替补更合适, 陈蒲先消耗对手, 山东泰山谨防国际比赛日后遗症莱希坠机原因找到了？或离不开这一国，细节罕见公布，局势恐变天万吨大驱率编队赴南海训练！它的兵力构成和课目设置有何讲究？新手练车最基本最开始需要练习的起步停车，可以循环练习，感受离合器的运用里昂站第二轮，布勃利克击败武基奇主持希然晒MSI赛事Vlog: 可以吃喝但不咋睡觉 15年攻关实现全人工繁殖探秘“水中大熊猫”川陕哲罗鲑泽连斯基更换乌克兰安全保障谈判代表团成员发行超长期国债的有意和其深度的影响大批澳洲华人不知道: 回国花的钱, 居然可以找回来!奇瑞又搞大事了, 众筹决定价格?俄能源部: 俄罗斯4月产量因技术原因超过配额将提交补偿计划巴基斯坦经贸资讯-5月21日美联储公布5月会议纪要通胀风险仍需高度关注丨从华尔街到陆家嘴曝申花将成为新一期国足国脚大户雅阁VS凯美瑞！如果是你你选谁？

最新回复(0)