出品|虎嗅科技组
作者|齐健
编辑|苗正卿
头图|Anthropic
当地时间6月19日,Anthropic发布了Claude3.5Sonnet,这是Claude3.5系列模型的首个版本,Anthropic在官宣博文中提到,新模型在智能、速度和成本效率方面都取得了显著提升,并且在多个评估中超越了同类模型和Claude3Opus。
在视觉模型方面,Claude3.5Sonnet也有显著提升,特别是在需要视觉推理的任务上,如解释图表和图形。此外,它能够从不完美的图像中转录文本,在零售、物流和金融服务等的票据业务中很有应用前景。
目前,Claude3.5Sonnet可以在Claude.ai和iOS应用上免费使用,订阅了ClaudePro和Team计划的用户,可以获得更高的使用限额。Claude3.5Sonnet也可以通过AnthropicAPI的形式在AmazonBedrock等云服务中获得,价格为每百万输入令牌3美元,每百万输出令牌15美元,具有200K令牌的上下文窗口。
Anthropic此次发布中,虽然提及了模型能力、速度、成本,以及多模态等方面的升级。然而细看他们公布的评测分数,其实与GPT-4o等模型的差距非常之小。最大的新意,似乎是全新的Artifacts功能。
Artifacts允许用户在与Claude对话的同时,直接在对话旁边编辑和构建Claude生成的内容,这标志着Claude从单纯的对话式AI向协作工作环境的转变。
虽然Anthropic没有放出大量Artifacts功能的演示,但是公布新模型之后,Claude.ai第一时间上线了全新模型和功能的试用,目前网上已经出现了大量真实用户的评测体验。相比于GPT-4o的实时对话等功能,Artifacts未必更加惊艳,但却触手可及。
作为一款模型内的应用功能,Artifacts的上线,似乎也意味着Anthropic正准备从“卷模型”的牌桌站起来,在模型产品、模型功能的维度上,跟OpenAI掀桌子。
Artifacts是什么?
Anthropic的官方博文中对Artifacts的介绍并不多,不过从目前的测试来看,这项功能很可能是Claude3.5,以及未来一段时间中最重要的功能之一。
Artifacts生成的内容块,如代码、文档或可视化,会直接出现在用户对话旁边的专用窗口中。
以分析英伟达股票为例,首先打开Artifact这个实验性选项。
打开Artifact这个实验性选项
输入prompt:
我要分析英伟达这支股票,你先帮我想一下如何分析,而且应该变化要有对比,比如苹果和微软;
你应该删除一些重要性没那么强的指标,而应该关注核心的反应关键变化的指标,特别是有先行指标特征的;
很好,现在用数据可视化形式;
需要真实的数据,时间应该是2010年开始到现在,而且数据可视化应该可以翻页,每个页面是3家公司的单独数据看板;
把数值也标上去。
输出结果
除了股票分析之外,Artifact还可以直接生成小游戏。
小游戏生成
“Claude3.5的新功能,类似给人的大脑上了核磁共振能考察运行的内容数据和分析特征了。”大语言模型研究专家祝韬告诉虎嗅,Artifacts功能和之前Anthropic一篇研究论文《ScalingMonosemanticity:ExtractingInterpretableFeaturesfromClaude3Sonnet》有关。
祝韬分析认为,Artifact功能的开发直接受益于Anthropic团队对模型内部特征的深入理解,发现某些特征的激活如何影响Claude的输出偏好。
例如,多模态输出:对模型处理不同类型信息(文本、代码、图像描述等)的特征的理解,可能促进了Artifacts支持多种输出类型的能力;对模型如何在内部表示和关联概念的理解,可能提高了Claude在Artifacts中保持上下文一致性的能力。
简而言之,Artifacts功能可以被视为对Claude内部工作原理深入理解的实际应用。它展示了如何将对AI模型内部机制的研究转化为实用的、面向用户的功能。
顶级大模型进入应用时代
相比于Gemini1.5和GPT-4o,Claude的优势在于长文本输出,不过关注长文本能力似乎使得Claude在文风跟随上表现一般,仍需要一些解码技术的支持。此外,Claude3.5的数学能力似乎仍不如GPT-4o。
OpenAI的首席技术官MiraMurati最近在她的母校达特茅斯工程学院的一次访谈中透露,下一代GPT(GPT-5)有望在“一年半内”问世。她还提到,下一代模型在特定任务方面将拥有“博士”级别的智能。
GPT-4o在模型能力上有限的提升,再加上GPT-5一推迟就是一年半,不禁让人猜想业内顶流们在模型研发上是不是遇到了瓶颈。例如,训练更大规模的模型需要更强大的计算资源和更复杂的算法设计,而这些都不是短期内能够轻易解决的。
此外,训练大型语言模型需要更多的计算资源、电力消耗以及数据获取和处理的费用。这些成本不仅是经济上的负担,也在实际操作中增加了难度。进一步提升模型能力,需要更大规模、更高质量的数据。这类数据的获取和处理也是一个巨大挑战。
由此,顶流大模型们都开始将研发重点逐步转型功能、应用,以及商业化场景。
Anthropic官宣博文中提到,公司还在开发新的功能和模式,以支持更多商业用例,并探索如何使Claude能够根据用户的偏好和历史记录来提供更加个性化和高效的体验。
从GPT-4o的实时对话,Claude3.5的Artifacts功能,以及Gemini与谷歌生态的深度融合,似乎可以看出,AI大模型在应用和功能方面的研发和升级更加容易。
大模型在技术基础上已经相对成熟,许多核心算法和架构也经过了广泛的研究和优化。因此,基于这些现有技术进行应用层面的创新和改进相对更加容易。例如,GPT-4o的改进可能更多是基于已有的GPT-3和GPT-4架构进行优化和调整。
应用和功能的研发通常是由具体用户需求驱动的。用户和企业在实际使用过程中会反馈出具体的问题和需求,这为研发团队提供了明确的改进方向。例如,Claude3.5的Artifacts功能就是为了满足用户在生成和编辑独立内容块时的需求,从而增加了实际应用的灵活性和价值。
应用和功能的研发可以通过快速迭代来实现。相比于底层模型能力的提升,应用层面的改进可以通过不断试验和调整快速实现。例如,Gemini与Gmail的结合,可以通过逐步集成和优化,快速提升用户体验和功能实用性。
AI大模型在不同应用场景中的表现差异很大,不同场景对模型的需求和要求也不同。这种多样化使得开发者可以针对特定场景进行优化和改进,从而提升模型在该场景下的应用效果。例如,GPT-4o在特定任务上的表现优化,Claude3.5的Artifacts功能,以及Gemini在邮件服务中的集成,都是基于特定应用场景的创新。
在应用和功能研发中,模块化和组合创新非常重要。通过将不同的技术模块进行组合和创新,可以实现新的功能和应用。例如,Claude3.5的Artifacts功能就是通过对模型内部特征的理解和利用,实现了多种内容类型的生成和编辑。
“AI大模型最终还是得看技术和市场的契合度。”波形智能创始人兼CEO姜昱辰告诉虎嗅,谷歌的优势在于其庞大的数据量和良好的生态系统,因此Gemini的使用频率反而比GPT更高,毕竟每天都要使用Gmail和GoogleDocs。
在大模型未来的市场化和发展方面,姜昱辰更看好谷歌,她认为尽管GPT-4o在ChatGPT产品基础上有优势,但谷歌有数据和应用两个绝对优势。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/787555.html