打败Midjourney, 这个谷歌大牛推出的AI产品凭什么弯道超车

虎嗅APP2024-03-31 08:07:00  63

没有谁能一直称王,但加上前缀谁都有称王的机会。

AI文生图,还能玩出什么新花样?

在这片群雄割据的红海,头部被Midjourney、DALL·E、StableDiffusion等占据,其余还能让人眼前一亮的产品并不多。

然而,仍有黑马杀出:Ideogram,前Google工程师创立,硅谷AI大神投资,去年8月面世,2月底发布了最新的模型。

Ideogram的特别在于,擅长生成包含文本的图片,这恰恰是几大巨头都在改善的难题。

事实证明,从别人跌倒的地方爬起来,不失为一种弯道超车的方式。

能“画图”和“摄影”,但AI可能还是个“文盲”

让AI精准生成文字,向来是个痛点,哪怕生成的人物和风景像相机拍出来的,那些如同乱码的扭曲文字,瞬间让AI原形毕露。

Midjourneyv5.2生成的错误文字

Ideogram站出来表示,拒绝让AI继续做个“文盲”,不妨先从它开始。

接触Ideogram的门槛很低,打开网页(https://ideogram.ai/)登录就能用,界面看起来也清爽不复杂。

生成一张图片的步骤不多,在输入框填完提示词,再根据你想要的效果,勾选图片长宽比,以及照片、海报、3D渲染等图片样式。

Ideogram还考虑到了人类可能是提示词“苦手”,今年2月推出了“魔法提示”,这就像一个内置的ChatGPT,帮你完善提示词,由AI拿捏同类的心思。

包含文本内容的图片有哪些?产品标志、T恤印花、书籍封面、电影海报......

我们先来个入门级考验,让几个人举起写着动物名称的指示牌,乍看文本对了,但脸和手不太正常,两者相互抵消,原来短板没有消失,只是转移了。

如果只让Ideogram写字,效果便惊艳得多。

让AI生成马斯克的经典句子“我宁愿乐观而错误,也不愿悲观而正确”,除了“W”有瑕疵,其他单词都写对了。

字体活泼了些,70后的马斯克不知道能不能接受,但碰撞的黑白色,应该能让爆改小蓝鸟的他满意。

再拿经典谚语“只工作不玩耍,聪明的孩子也变傻”作为考题,虽然提示词强调了使用打印机字体,但Ideogram没能做到。看来光用提示词还不能定义字体,只能取个近似值。

接着,命令AI为一家叫作“CoffeeAI”的AI初创公司设计logo。

主体是个电路图案的咖啡杯,右上角有个机器人咖啡师,公司名称用粗体大写字母写成,排版简单和克制,作为logo来看很直观,但总体来说在意料之中,很难让甲方心动拍板。

该给AI上难度了,句子更长,对设计的要求更高。

我要求Ideogram为儿童绘本设计内页,不仅要在醒目的位置写着“穿袜子的狐狸和戴礼帽的兔子”,底部还得标注“匿名”。

对于这两行文字,Ideogram基本完成了任务,用上了手绘字体和粉笔涂鸦,甚至配了符合题意的插图,绘本的味道对了,但错误也很显眼,“in”这个单词有些问题,兔子长得像狐狸还和狐狸称兄道弟。

Ideogram同样可以拿来做电影海报,不妨拿前段时间爆火的、阮经天主演的电影《周处除三害》试试水。

我在提示词里杂糅了典故和电影,背景用到侠士剪影、海、山的意象,文字部分参考电影的英文名:猪、蛇和鸽子。

除了漏了一个“the”,最终的海报效果还不错,融合了古典的形象和现代的字体,鸽子涂鸦堪称点睛之笔,但总体更像西幻风,让人觉得陌生,很难联想到电影的剧情。

体验下来发现,其实Ideogram在文字上出错的概率不小,有时候生成两三次,才能得到一字不差的理想结果。

就算文本对了,人物的脸和手指也经常翻车。

它可能还会加些花里胡哨的小动作,随机生成无意义且扭曲的文字,自己打脸自己。

这里的小字就糊成一团了

但总体来说,Ideogram让人惊喜,可以写对长句子,并且用上合适的字体和排版方式配合画面氛围,尽管目前还不能写中文,但如同鬼画符的几个字非常贴合衣服褶皱。

这四个字其实是“恭喜发财”

瑕不掩瑜,Ideogram的就业场景已经很多了。设计logo、海报、T恤图案时,它都可以作为灵感参考和创意辅助。

以前担心AI会“画画”和“摄影”,以后还怕AI有文化和会设计。

审美不输Midjourney,还是个表情包神器

AI的进步按天衡量,可能一觉醒来世界就发生了变化。虽然Ideogram表示自己的文本渲染能力最强,但对手们也不服输。

还未公开发布和开源的StableDiffusion3在2月官宣,改进了文字拼写能力。

StableDiffusion3的拼写能力

去年12月发布测试版的Midjourneyv6,是第一个具有可靠文本生成功能的Midjourney版本。

不过,它的要求也依然比较苛刻,除了必须把文字放在引号内,提示词最好解释文本的位置和书写方式,并用到“印刷”“写下”等关键词,一到两个词的文本生成效果最好。

Midjourneyv6的文本生成功能

被追赶的Ideogram团队不慌,认为优势在我,Ideogram仍然拥有更高的准确率,并且能够处理复杂的长句。

Ideogram的系统评估也表明,Ideogram1.0渲染文本的准确性最高,与DALL·E3等其他模型相比,错误率降低了近2倍。

光说不练假把式,不如拿相同的提示词,让Ideogram1.0和MidjourneyV6、DALL·E3同台竞技。

先来比较生成文本的准确度,我要求AI们绘制一幅浮世绘风格的日出插图,《飘》的经典台词“明天又是新的一天”放置在合适的位置,表现希望和新生。

这次,Ideogram完胜,拼写准确,线条和色彩的设计也很大胆和出众。

向来差点艺术细胞的DALL·E竟然意外得有质感,文字基本对了但没完全对,画风更加抽象,Midjourney不仅文字不准确,审美也落了下风,甚至没有认真听题。

左为DALL·E,右为Midjourney

二是比拼造梗能力,Ideogram官方特意提到了生成表情包的功能,借助“魔法提示”,AI会发挥自己的想象力扩写提示词,配上文案,让图片有感情色彩。

我想看AI能不能生成打工猫表情包,于是输入了提示词:“画一个有趣的梗图,关于一只戴着领结和衬衫、在电脑前打字的泪流满面的猫,比喻人类打工的辛苦。”

Ideogram发挥脑洞,自觉地加了句文案“猫也得工作”。

美中不足的是多了个“have”,前爪的指头数量也不对,看来AI不仅仅对人手犯难,拿猫爪也没辙。对比原版表情包,算是中规中矩,不能像“流泪猫猫头”一击即中。

左为网图,右为Ideogram

Midjourney的猫严肃且优雅,仿佛是个已经财富自由的作家,看起来更像在拍杂志写真,但这鼠标不知道怎么回事。

左为Midjourney,右为DALL·E.

DALL·E情感最为到位,画风虽然随意了些,但粗糙有粗糙的好处,仿佛不在一个图层的面条泪有内味了,真的很适合拿来当表情包用。

三是对复杂的长提示词的理解能力,尤其是提示词的元素是否齐全、出现的位置是否准确,所以我输入了比较啰嗦的提示词,规定了各个主体的位置。

Ideogram在整体构图上表现得更好,提示词说到的几个要点都覆盖了,心形牌子、机器人、宇航员、气球和奖牌都有,虽然宇航员的手、奖牌的字等细节出了问题。

相比之下,Midjourney更有艺术感,但要素缺失,又多了些有的没的装饰,更有自己的想法和个性,DALL·E不仅要素缺失,细节出错,还不好看。

上为Midjourney,下为DALL·E.

所以抛开文字,光看出图质量,Ideogram也不差,有时候对提示词里各个物体空间关系的还原,比其他AI还要更加准确。

从使用体验来说,Ideogram的生成速度比Midjourney快,一般十几秒就能完成四张图片。

甚至根据行业的评估规则,人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面,更喜欢Ideogram1.0,而不是DALL·E3和MidjourneyV6。

哪怕你不满意Ideogram生成的图,把它的魔法提示词拿去用,在Midjourney和DALL·E的生成效果,可能也比自己手搓更好,不失为一种优化提示词的方式。

没人能在我的BGM里打败我,但同个提示词给不同AI使用,胜负还真不一定。

Google工程师创办的明星公司,接地气的AI产品

Ideogram成立于去年8月,今年2月推出最新的模型Ideogram1.0。

这又是一家明星公司,创始团队共7人,来自GoogleBrain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中4位是Google文生图扩散模型Imagen研究论文的作者。

谨小慎微的Google经常在推出产品时慢半拍,多次眼睁睁看着对手在全球声名大噪,聊天机器人被ChatGPT抢先,Imagen也被DALL·E2超车。

从工程师们的角度看,研究成果无法落地为面向消费者的应用并非好事。不少人选择了离开,亲自打造新的产品,尽量开放使用,先积累下用户规模和口碑。

Ideogram一天25次提示词的免费额度,可能也是出于这样的考虑。

市场很看好这个产品,Ideogram完成了硅谷风投a16z领投的8000万美元A轮融资,投资者中还有AI大神,包括Google首席科学家JeffDean、OpenAI创始团队成员AndrejKarpathy。

其实在体验了很多AI产品之后,我暗暗有一个疑问:怎么定义一款产品好用性?

Ideogram生成的T恤图案

之前让我觉得好用的,是插件“沉浸式翻译”,它不像Google翻译覆盖原文,可以中英文对照,不仅是新闻网页,X信息流、YouTube字幕、PDF文件,都能用上。

Ideogram似乎也是这样接地气。一方面,它可以更加精准地生成用户所需的文字内容,并适配各种风格的图片。另一方面,它也能无中生有,为图片配上契合的文字,比如表情包。

虽然Ideogram生成的结果很多也不能拿来就用,但至少基本符合提示词要求,文字大多可读。

我也在体验中发现,Ideogram的写实类图片一般,但涂鸦、插图、绘画方面不错,艺术天赋向Midjourney看齐。

Ideogram的官网还有各种作品的热度排行榜。打开网站的瞬间,你仿佛误入了一个ins风的图片社区,上面的提示词也都可以学习。

当AI工具兼具了创意、便利和分享,就很容易让人上头,具体的表现是,一天的25次提示词很快用完,这焦急的感觉,和等待Suno的积分更新差不多。

如果是每月7美元或者16美元的会员,除了更多生成次数,Ideogram还提供了图像上传和编辑器的功能。

图像上传指的是,用户上传自己的图片,然后通过Remix功能再创作。

左为原图,右为输出

编辑器除了裁剪、缩放等常规功能,还有一个很有意思的绘图工具,从一幅抽象的图画生成图片。人类的画工粗糙勾勒各个元素的形状、构图、颜色等,AI负责化腐朽为神奇,有些神笔马良的既视感。

Ideogram能从血雨腥风里杀出,好用当然是最重要的,同时它的定位也很准确。

如果美学是最重要的标准,那么Midjourney一骑绝尘。虽然DALL·E的水平时好时坏,但内置于ChatGPT调用方便,开源的StableDiffusion则带来了自由。

单论用户规模,Ideogram可能哪个都打不过,但它的长板做得很好,应当也能收获自己稳固的受众。

至少免费可用的AI图像生成器里面,Ideogram的整体质量领先,网页使用方便,提供免费额度,文本渲染强大,魔法提示功能和创作者社区提供创意和灵感。

文生图模型们还远非完美,仍在努力地还原物理世界,或者向画家和设计师看齐。更多的Ideogram,或许仍能找到自己的一席之地。

这也正是AI竞争的残酷和魅力所在,不知道谁能笑到最后,但永远有新的对手瞄准阿喀琉斯之踵加入。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/78805.html
0
随机主题
山西: 科学预防“干热风” 确保小麦丰产丰收三大消息:马科斯对军方出手!杜特尔特也遭清算?罪魁祸首被曝光足球报: 阿兰客串中锋没有问题 国足后腰位置上问题比较严重超跑会跳舞,你见过吗?!聚焦生物多样性, 中粮可口可乐走进青岛浮山探索生物魅力好好好~前EDG中单Fisher在LCK完成再就业 携手高分路人加入NS燃烧卡路里, “八小练兵”来助力澳新两国宣布撤侨后, 马克龙飞往这块法国海外属地手机弹出“系统更新”提示, 大多数人会这样做! 看看老师傅怎么说迪马股份大股东已增持100万股三排乘客舒适, 激光雷达加持, 搭载800V快充, 零跑C16好开不贵青发控股集团: 贸易创新为高水平开放助力呷哺呷哺转型失误导致市场优势丧失, 降价促销能否挽救颓势?3k的华为智能锁怒换成1k的, 有些话不吐不快, 这回不再遥遥领先茅台的主营业务是什么? 你真的了解吗?印度美女远嫁中国, 弟弟前来中国祝贺, 直言: 中国人真是尖酸刻薄还记得“水哥”王昱珩吗? 曾协助警方成功破案, 如今怎样了?《庆余年2》开始发盒饭, 范无救和赖御史接连下线, 范闲落泪!两位老板组团买凯雷德V, 落地400万, 黑白双煞, 暴力美学淋漓尽致有人认为职业年金是私分国有资产的由头, 你认为这种说法靠谱吗?权威确认! “菜鸟主帅”将正式接手拜仁! 10球15助天才攻击手来投
最新回复(0)