新火种AI|Devin再次震撼谷歌! 但却是以被质疑造假的方式...

新火种2024-04-24 16:13:17  69

我们常说有人的地方就有江湖,就会存在炒作,扒皮和虚伪。没想到,到了人工智能这里,也是一样。

4月9日,一位自称有35年软件工程师经验的网络博主卡尔逐帧复现了人工智能软件师Devin的演示视频,并据此提出4点质疑。他认为Devin所展示的编程能力存在一定欺骗性,并且“所处理的任务并非随机,而是演示者精心选择的刻意呈现”。

这个Devin极其特别,被称为“全球首个AI人工智能软件师”,它被质疑造假,这件事足以震惊整个硅谷,乃至全球AI领域。

细扒全球首个AI程序员的上线经过...

我们先来了解一下Devin的来历。

Devin是由Cognition Labs于今年3月12日发布的一项AI编程产品,它最大的宣传点是“全球首位AI工程师”。

主创介绍,Devin在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。具体来说有6大功能:端到端构建和部署程序,可以解决的不只是代码问题,还包括与之相关的整个工作流;自主查找并修复bug;训练和微调自己的AI模型;修复开源库;为成熟的生产库做贡献;超强学习能力,实时补足知识和能力短板。Devin完整技术报告中显示,在SWE-bench基准测试中,无需人类辅助,Devin可解决13.86%的问题

这个数据看似平平无奇,但其实已经超过了此前所有AI大模型的成绩。要知道,目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件。

Cognition Labs始终没开放公测,但陆陆续续给出了一些内测名额。耐人寻味的是,很多人在当时上手体验过了,还给出了很高的评价。譬如热衷AI的沃顿商学院教授Ethan Molick试过后就大大赞赏了Devin,认为其新颖的实时交互方式是最值得关注的。他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站,随后透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。

被认为是炒作!所谓专业实力,不过是“自导自演”。

可反转就这么毫无预兆的出现了。

在Cognition官网发布的长达1分50秒的演示视频里,Devin只需一句指令,就能实现端到端地处理整个开发项目。视频中还表示,它具备自主学习新技术,端到端构建和部署应用,自主查找以及修复代码问题等方面的能力。此外。,Devin还可以按照用户需求同时执行多步骤工作流程,程序员们可以实时观察其进度,发现错误时,跳出指令就能修正。

但博主卡尔却站出来质疑,认为这些宣传是不实的。Devin在操作过程中看似修复了许多问题,但这些问题很多都是Devin的“自导自演”。他认为,在上述演示视频的2.936秒处,屏幕左上角显示“他们搜索过这个任务”,这意味着演示视频中Devin处理的任务并非随机,而是演示者选择的,甚至还出现了“自己现写bug然后当场修复”的骚操作。

除此之外,Devin还有很多其他的槽点:譬如号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,简直是在做无用功。或者看起来在修复bug,但是这些bug毫无意义,因为真正的人类程序员根本就不会犯那种错误。还有些时候,Devin就是在做没有意义的事情,很多事情简单两步就能搞定,但它却花里胡哨的一顿操作,把简单的问题复杂化

至于Devin修改代码的真实水平,也只能说是一言难尽。在演示视频中,Devin花费了足足6个小时才完成了任务,而这些内容,博主卡尔仅用了半个多小时就完成了。

大瓜激起千层浪!专业人士普遍认为:博主的质疑有理有据。

博主卡尔的质疑在圈内引起了极大的热度和热烈的讨论,这件事在推特和YouTube的热度居高不下,成为了网友们争论的焦点。

一个月前,Devin的诞生成功引起了整个AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。

而事件背后所承载的影响力也是深远的。要知道,Devin背后的公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。

Cognition AI背后的团队成员共10人,核心团队共有3人,分别是Scott Wu,Steven Hao和Walden Yan,团队非常年轻。全体成员共拥有10枚国际信息学奥林匹克竞赛(IOI)金牌,很多成员在青少年时期也参加过信息学国际奥林匹克竞赛等。在发布“全球首个AI程序员Devin”这一信息后,Cognition AI备受外界关注。公开资料显示,此前,Cognition AI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。一旦造假事件落下实锤,所能带来的后坐力无疑是巨大的。

对于博主卡尔的质疑,网络上的口径大多是站在了博主一边,很多网友都对Devin的造假嗤之以鼻。有人还调侃,“Devin至少掌握了看起来很忙的技巧”,很多专业人士也认为卡尔的质疑有理有据。

仔细复盘一下,大家会发现Devin和Cognition AI的疑点早已存在。直到今天Devin 都没有开放使用,只能通过邮箱提交申请。所以,外界对Devin的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价,很少有人有机会可以对其进行真正的体验和测评。

所以,我们有理由相信,从呈现出的结果来看,Devin的确有虚假炒作,过度包装的嫌疑。如果是头部巨头发布新产品新工具,诸如微软Copilot这样的,都会提供充足的上下文。Devin显然没有做到,甚至连对程序的逻辑理解都不到位。

但从另一个角度来说,AI程序助手的发展经历阵痛和挫折在所难免,我们不能因此就质疑整件事情的意义。Devin的功能固然被虚假夸大了,但这并不能否认AI编程的发展趋势。AI程序员的存在确实可以协助人们独立完成简单的开发工作,甚至可以脱离一名真正程序员的帮助,能减少大量不需要创新的重复劳动,例如批量修改代码的命名风格,代码的依赖关系等。程序员们依然需要各类代码辅助工具的帮助,这是大势所趋。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/321687.html
0
随机主题
数学王子:高斯的平凡出身与非凡之旅专业收割宝妈,张庭卷土重来陈建斌老婆新加坡度假, 48岁蒋勤勤坐街边啃螃蟹, 素颜没人认识男单爆大冷! 男单世界冠军2-3日本选手, 无缘开门红, 球迷很意外我国网络拍卖领域首个规范性文件发布, 明确线上线下监管一致性王力宏补位歌手2024沃尔沃德国发布新的Polestar工程限量版XC60 SUV和S60轿车地球班往事: 苏联解体时, 俄罗斯继承了1000亿债权, 要回来多少?乌总统野心膨胀取消大选, 囚徒军是最后底牌, 西方或斩断与乌联系塞拉利昂总统出席中铁十局唐克里里铁矿项目主体竣工仪式上访村民疑“被精神病”, 近八旬母亲深夜也被送精神病房Uzi传奇杯首败后, 完成偷龙翻盘! 小伞彻底破防, icon生日夜沉默湖人引援新动向: 天时地利人和齐聚, 2年6950万锁定17+11内线巨塔1950年毛岸英牺牲, 9年后罗瑞卿密电任荣: 主席有一项任务交给你再续“父辈”之荣耀? 荣耀小折叠V Flip手机曝光, 若隐若现华为身影庄菁雄接掌一年后, 上汽通用仍未走出下滑通道好评如潮的3部韩国电影, 你若一部都没看过, 真的太可惜了最懂MPV, 也最懂消费者的全新GL8陆尊PHEV米莱重申“将阿根廷美元化”承诺: 阿根廷央行将会停印比索, 让美元取而代之郭德纲讽刺同行有多狠?相声没落全因同行太差劲闻名全国的计划生育先进县,如今却成老人县,花甲之年还在工作
最新回复(0)