前几天,OpenAI率先推出了GPT-4o,在业内引起了不小的反响。究其原因,是因为GPT-4o的横空出世再次创立了一个多模态模型发展的新范式。
为什么这么说呢?通常情况下,传统的多模态基础模型会为每种模态采用特定的“编码器”或“解码器”,以便将不同的模态分离开。然而,这种方法大大限制了模型的发挥,使其有效融合跨模态信息的能力变差。
而OpenAI所推出的GPT-4o就能有效解决这个问题,因为它是首个端到端训练的,跨越文本,视觉和音频的模型,所有的输入和输出,都由单个神经网络处理。GPT-4o与以往的所有模型都不尽相同,也正因此,OpenAI将其称为“首个原生多模型”。
不过,“首个”的头把交椅还没有坐热乎,OpenAI就遭遇到了Meta的挑战。就在最近,Meta团队发布了混合模态Chameleon(变色龙) 。它可以在单一神经网络无缝处理文本和图像,10万亿token训练的34B参数模型性能接近GPT-4V,刷新SOTA。
如此看来,OpenAI的新产品刚推出不久,便遇到了足以与之相抗衡的对手。
Chameleon:多模态文生图大模型,Meta在生成式AI方向上的新王牌。
作为Meta独家推出的王牌产品,Chameleon有什么独特之处呢?
与GPT-4o一样,Chameleon采用了统一的Transformer架构,使用文本,图像和代码混合模态完成训练。以类似文本生成的方式,对图像进行离散“分词化”,最终生成和推理交错的文本和图像序列。
因为使用了这种“早期融合”的方法,所有的pipeline从一开始就被映射到一个共同的表示空间,因此模型可以无缝处理文本和图像。不过,任何事情都有正反两面。早期融合的设计虽然可以使模型做到“无缝衔接”,但与此同时,也给模型训练带来了重大的技术挑战。对此,Meta研究团队引入了一系列架构创新和训练技术。
数据结果表明,在纯文本任务中,340亿参数Chameleon的性能和Gemini-Pro相当;在视觉问答和图像标注基准上,刷新SOTA,性能接近GPT-4V。
性能卓越,架构独特,Chameleon的未来将呈现怎样的发展前景?
正如我们前面所提到的那样,传统上的文本生成模型会通过多任务指令调整以提高对各种任务指令的理解能力,而图像生成模型则专门针对特定任务进行优化。但是,Chameleon在图像和文本生成任务上都采用了大规模多任务指令微调,使其性能得到显著提升。这表明了缩放策略在tokenizer-based图像生成模型上的通用性。
譬如,以下4张图像是按照下面的文字说明依次创建的:
(1)撒哈拉沙漠中戴着草帽和霓虹太阳镜的小仙人掌。
(2)一只人手的特写照,手模特。高质量。
(3)一只主角是浣熊的动漫人物,准备用武士刀进行史诗级战斗。战斗姿势。幻想、插图
(4)一块写着“1991年”的幻想风格停车标志。
此外,Chameleon在架构上也具有自己的独特之处。它使用了解码器transformer,类似于常见的文本模型,这也是它与GPT-4o的相同之处。但是,Chameleon也具有与众不同之处。它能够输入和生成文本和图像,这使得其能够处理多种任务,包括文本引导的图像生成和编辑,文本到图像生成,文本任务等,这无疑展现出了Chameleon的出色的性能。
它可以根据不同的提示生成简短或长篇的字幕,并回答有关图像的问题。
举例来说,想象一只狗拿着一根棍子。
提示问题:狗拿着什么?
模型生成:棍子
提示:非常详细地描述给定的图像
模型生成:在这张图片中,有一只狗用嘴叼着一根棍子。在画面的背景中,还有草地和树。
如今,各式各样的AI模型如雨后春笋般不断冒头,想要在一众竞争对手中站稳脚跟,就必须拥有核心竞争力。目前来看,Meta的Chameleon是很有竞争力的,它的的强大性能为更图像生成工具带来了更加连贯,更符合输入提示的图像生成能力。它不仅能够处理复杂对象,还能够在处理时涵盖到多个约束条件的提示,展现出卓越的表现。这对于提高图像生成的创造力和应用于元宇宙等领域有着积极意义。
AI能力进步速度快不快,与其训练数据是否全面,是否具有偏见密切相关。所以,对于AI技术的应用,透明度将是加速进步的关键。如今,Chameleon的开源工作为多模态语言模型铺平了道路,为更高质量的图像生成和理解迈出了坚实的一步,让我们看到了更多的希望。
科技巨头接连出新品带来强势利好,人工智能AIETF盘中涨超1.8%。
最近一段时间,AI赛道是相当热闹的,一众科技巨头争相推出自己最新的AI大模型。
上周开始,OpenAI和谷歌分别推出了GPT-4o和升级版Gemini 1.5 Pro。在此之后,Meta也不落人后,于近日发布了“混合模态”基座模型Chameleon。科技巨头接连推出新产品无疑形成了强势利好,使得市场上出现了积极的反馈。
根据5月20日数据反馈,早盘人工智能AIETF(515070)小幅低开后走高,截止北京时间中午12:00,最高涨幅超过1.81%。而持仓股中中国软件领涨超5%,太极股份,光迅科技,新易盛以及寒武纪等个股跟涨。
2024年的AI行业处于群雄逐鹿的状态,无论是海外的科技巨头,还是国内一线的互联网公司,都在积极训练和迭代自身的模型能力,堪称神仙打架。它们所推出的模型产品,无论从进阶维度,还是从模型能力而言,都已经上升到了极高的水准之上。大模型由最初的大语言模型向多模态不断进阶;从最基本的文本到文生图,文生视频的维度不断扩充。
AI巨头们连续发布的新品势必会在全世界范围内掀起一波新的AI浪潮,在这波浪潮的带动下,诸如人工智能AIETF,机器人ETF等AI产业链也会受到催化,从而刺激相关市场的上涨。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/562154.html